Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기

Agentic AI를 위한 MCP Sidecar sLM 학습(시도) 기 이준범 (래블업)
[email protected]

발표자 소개 이준범 (aka Beomi) - 래블업 Researcher - AI/ML
GDE - 한국어 언어모델 연구하다 스마트스팸필터 앱도 만들다 가 - 작년 발표는 온디바이스 모 델 - 올해 발표도 온디바이스(?) 모델

대-Agent 시대

Anthropic에서 제안한 MCP

OpenAI도 도입하는 MCP

MCP vs Tool Calling?

MCP vs Tool Calling MCP = 1) List(gather) functions 2)
Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/

모델이 ‘MCP’를 알고 있을까?

MCP를 알고 있는 서포트 모델: MCP Sidecar 필요한 것 -
User prompt - MCP Servers - Base LLM Output - Evaluator - JSON - MCP Schema - Tool validation - LLM as Judge - … Gemma-3-27b Llama-3.1-8B Qwen3-14B

MCP 쓰는 모델 성능 측정? MCP-Bench Img src: https://github.com/Accenture/mcp-bench 28
MCP Servers

MCP-Bench

MCP 쓰는 모델 성능 측정? MCP-Bench

1차 목표: Schema 잘 구성 하기 MCP 쓰는 모델 성능
측정? MCP-Bench

2차 목표: 문맥 이해 높이기 MCP 쓰는 모델 성능 측정?
MCP-Bench

MCP-Bench는 Evaluation Kit

학습 데이터는 어디서? 1) 가상 Task 만들고 2) Trajectory 모으고
3) Revise or Verify

Train Set = (가상) User Prompt 시나리오 • MCP-bench는 Eval
Set Only • 독립된 Train Set 필요 • MCP 서버들 정보 기반 → 신규 User Query 생성 • GPT-5, GPT-5-mini 이용

Train Set = (가상) User Prompt 시나리오 User Query 생성
• MCP 서버 목록 + Tool 목록 • GPT-5/mini로 • Task Goal 설정하기 • Fuzzy Description (= 사용자 프롬프트) • 실제 사용할 함수 /Parameter (→ 이후 Verifier 사용)

Train Set = (가상) User Prompt 시나리오

Revise 모델 학습은 어떻게?

가장 간단한 접근법: 작은 모델 → 큰 모델 Revise SFT

SFT로 가능한가?

RLVR + RLH(AI)F

Rewards? Eval Pass = Reward++

MCP/Tool Call은 Parser와의 싸움

Parser를 학습?

RL 학습 어떻게?

Agentic AI = 엄청 많은 토큰 사용! - Qwen3-0.6B는 최대
40k - 현재 입력 평균 57k+, 최대 128k

Agentic AI = 엄청 많은 토큰 사용! RoPE Scaling으로 확장
- Qwen3-14B는 지원 - 작은 모델들은 비지원 - 성능이 확 감소…

Agentic AI = 엄청 많은 토큰 사용! Qwen3 4B Instruct
모델 --> Native context 256K

RLVR 학습 – TRL

RLVR 학습 – TRL + vLLM

모델 성능 측정은 동일하게

모델 성능 목표 Llama 3.1 8B Inst 기준 → Parser
이용시 해당 점수.  RL 학습 전/후

Todo - ing

LLM as Judge, LLM이 주는 Reward

RLVR 학습 – VERL

RLVR 학습 – VERL: Agent Loop

Multiturn?

Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기

Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기

More Decks by Lablup Inc.

Featured

Transcript