AIエージェント時代のLLM-jpモデルのあるべき姿

AIエージェント時代 LLM-jpモデルあるべき姿 SUMO.ai #03 - マルチモーダルAI技術勉強会国立情報学研究所中山功太

自己紹介コロナ禍に床屋に行くをサボって髪を伸したらアイデンティティになってしまい迂闊に切れなくなりました学歴 2025/03 筑波大学情報工学研究群情報理工学位プログラム博士(工学)取得
2020/04 - 2023/03 筑波大学情報理工学位プログラム満期退学 2018/04 - 2020/03 豊橋技術科学大学博士前期課程情報・知能工学課程修了 2014/04 - 2018/03 豊橋技術科学大学情報・知能工学課程卒業職歴 2024/04 - 現在国立情報学研究所大規模言語モデル研究開発センター (NII LLMC) 特任研究員 2020/11 - 2024/03 理化学研究所革新知能統合研究センター言語情報アクセス技術チームリサーチアソシエイト(常勤研究員) 理研時代知識ベース構築とか固有表現抽出について研究 NII LLMCで大規模言語モデル研究開発に従事 (172Bモデル学習を回していました ) 興味 LLM 応用寄り

自己紹介: 最近研究① llm-jp-judge: 日本語LLM-as-a-Judge評価ツール構築 [1] [1] 中山功太, 児玉
貴志, 鈴木久美, 宮尾祐介, 関根聡. llm-jp-judge: 日本語LLM-as-a-Judge評価ツール . 言語処理学会第31回年次大会 , 2025. 優秀賞(上位2%) [2] Momoka Furuhashi, Kouta Nakayama, Takashi Kodama, Saku Sugawara. Are Checklists Really Useful for Automatic Evaluation of Generative Tasks? The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP2025 Main), 2025. [3] Momoka Furuhashi, Kouta Nakayama, Noboru Kawai, Takashi Kodama, Saku Sugawara, Kyosuke Takami. Which Feedback Works for Whom? Differential Effects of LLM-Generated Feedback Elements Across Learner Profiles. arXiv, 2026. LLM-as-a-Judgeにおいてチェックリスト本当に効果があるか ? [2] 最も学習者に好まれる FBタイプ何か [3]

自己紹介: 最近研究② 排他的逆学習: 解きたいタスク以外を全て忘却 [1] [1] Mutsumi Sasaki, Kouta
Nakayama, Yusuke Miyao, Yohei Oseki, Masaru Isonuma. Exclusive Unlearning. arXiv, 2026. [2] 梶川怜恩, 中山功太, 小田悠介, 神田峻介, 赤部晃一, 二宮崇, 岡崎直観. Omni-JDocVQA: 多種多様な文書を含んだ日本語視覚文書理解ベンチマーク構築 . 言語処理学会第 32 回年次大会, 2026. Omni-JDocVQA: 自然な質問と多種多様な質問文書理解ベンチマーク構築 [2] そ他研究 ➡

イントロ • LLM-jp 開発中モデル性能がそこそこ良くなってきた ◦ LLM-jp: 透明性・信頼性高いLLMを作るオープンサイエンスコミュニティー
• 質疑応答とか基礎知識評価スコアで海外オープンモデルと同等性能 • 世中 AIエージェント時代 ◦ コーディングAI ◦ フィジカルAI (ロボット) ◦ etc. • LLM-jpモデルまだエージェント向けチューニングしていない • エージェント向け学習評価を行うSWGを9月に設置 • 今日エージェント研究動向を紹介(20分程度) + エージェントSWG 紹介

AIエージェントとエージェントある環境に配置されたコンピュータシステムであり、そ環境において自律的な行動を実行し、設計目標を達成する能力を有するも [1] AIエージェント限定されたデジタル環境内で目標指向タスク実行を目的として設計された自律的なソフトウェアエンティティ
[2,3] LLMベースエージェント (LLM based agent) LLMを中核としたエージェントエージェンティック AI (マルチエージェントシステム ) 複数専門化されたエージェントから構成され、より広範なワークフロー内でサブタスクを調整、通信、動的に割り当てて共通目標を達成するも [2,4] [1] Wooldridge and Jennings. Intelligent Agents: Theory and Practice. The Knowledge Engineering Review 10, 1995. [2] Acharya et al. Agentic ai: Autonomous intelligence for complex goals–a comprehensive survey. IEEE Access, 2025. [3] Sado et al, Explainable goal-driven agents and robots-a comprehensive review, ACM Computing Surveys, vol. 55, 2023. [4] Bornet et al. Agentic Artiﬁcial Intelligence: Harnessing AI Agents to Reinvent Business, Work and Life. Irreplaceable Publishing, 2025.

LLMベースエージェント基本概念メモリ読み書き計画内省ツール呼び出しツール応答クエリ終了回答生成
回答 Yes No ツールインターネットデバイス現実環境 LLM

LLMベースエージェント基本概念メモリ読み書き計画内省ツール呼び出しツール応答クエリ終了回答生成
回答 Yes No ツールインターネットデバイス現実環境明日天気 ? ①デバイスから現在地と日時を取得 ②インターネットから天気を取得晴れやで。 ①ユーザー現在地と今日日付を確認する。 ②天気を取得する。

LLMベースエージェント設計論

• 多様なツール呼び出しを学習する初期研究 • LLMにより人工的にデータを構築し、自身を学習 (Self-Traning) Toolformer: Language
Models Can Teach Themselves to Use Tools (Schick et al. NeurIPS, 2023)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
(Qin et al. ICLR, 2024) • ツール呼び出しをZero-shotに汎化した初期研究 ◦ Zero-shot: 未知 APIドキュメントが与えられた時に正しく呼べるかどうか • RapidAPI 大量 APIコレクションとLLM (ChatGPT) により人工データを作成、マルチパス探索で正解ツール呼び出しパスをフィルタ

ReAct: Synergizing Reasoning and Acting in Language Models (Yao et
al. ICLR, 2023) 推論ツール呼び出し • LLMベースエージェント初期的な研究 • Few-shotで推論 (Reasoning) と行動 (Action) を交互に行う

MemoryBank: Enhancing Large Language Models with Long-Term Memory (Zhong et
al. AAAI, 2024) 記憶 • 対話エージェントにおいて自然な記憶を導入 • あまり参照されない記憶忘却されやすく、繰り返し参照される記憶されにくくしている

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
(Wang et al. ACL, 2023) • 計画 (Planning) 初期的な研究 • 事前に計画を立てさせるようなプロンプトを与えることで、Chain-of-Thought (CoT) 推論を強化 Plan-and-Solve CoT 計画

Reﬂexion: Language Agents with Verbal Reinforcement Learning (Shinn et al.
NeurIPS, 2023) 記憶記憶内省 • 行動が失敗した際に、そ行動を内省 (Reﬂection) し長期メモリに格納することで次行動に活かす

VOYAGER: An Open-Ended Embodied Agent with Large Language Models (Wang
et al. TMLR, 2024) 記憶内省計画 • オープンエンドな環境において自律的に行動するLLMエージェント走り • 長期的なタスクに効率的に取り組むため、再利用可能なスキルを記憶として保持

Generative Agents: Interactive Simulacra of Human Behavior (Park et al.
UIST, 2023) • ペルソナを与えて25人村人をシミュレーション • 内省 (Reﬂection) 、計画 (Planning) 、記憶 (Memory) がシミュレーションに重要であることを示した記憶計画内省

Mixture-of-Agents Enhances Large Language Model Capabilities (Wang et al. ICLR,
2025) • Mixture-of-Expert (MoE) っぽい配置マルチエージェント • 性能上がるがTFlopsも増える

AIエージェント評価

評価から見る AIエージェント Yehudai et al. Survey on Evaluation of LLM-based
Agents. Arxiv, 2025. Mohammadi et al. Evaluation and Benchmarking of LLM Agents: A Survey. KDD, 2025.

The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to
Agentic Evaluation of Large Language Models (Patil et al. ICML 2025) • マルチターン対話を想定したツール呼び出し評価リーダーボード • Python、Java、JavaScript、 REST API、SQL 関数が対象 • ユーザーが追加したタスク (Live) も扱っている

τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (Yao
et al. ICLR, 2025) • ツール呼び出しマルチターン評価 • ローカルにAPIを構築&LLMによりユーザーをシミュレートすることで自然にマルチターン評価

PlanBench: An Extensible Benchmark for Evaluating Large Language Models on
Planning and Reasoning about Change (Valmeekam et al. NeurIPS, 2023) • LLM Planning 能力を評価 • 片手でブロックを積み替えるような簡単なタスク

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based
Agents (Tan et al. ACL Findings, 2025) • ユーザーと対話、もしくユーザー同士対話観察で過去対話内容を記憶できるか評価 • 事実だけでなく、ユーザー甘い食べ物が好きといったメタに推測される内容も記憶できているか測る

WebArena: A Realistic Web Environment for Building Autonomous Agents (Zhou
et al. ICLR, 2024) • 仮想環境上ウェブアプリ (オンラインショッピング、ソーシャルフォーラム、共同ソフトウェア開発、ウェブコンテンツ管理) でエージェントタスク遂行を評価

OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer
Environments (Xie et al. NeurIPS, 2024) • Open-Endedなマルチモーダルベンチマーク • Ubuntu、Windows、 macOSなど GUIを操作するタスク

AgentBench: Evaluating LLMs as Agents (Liu et al. ICLR, 2024)
• CUI環境でエージェント評価 • コード（OS、データベース、ナレッジグラフ）、ゲーム（デジタルカードゲーム、水平思考パズル、家事）、ウェブ（ウェブショッピング、ウェブブラウジング）

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents (Liu
et al. ICLR, 2025) • GUI環境でエージェント評価 • 家事シミュレーション、オープンワールドゲーム、スマホアプリ操作、ウェブブラウジング、ウェブデザイン修正

安全性 (セーフティ / セキュリティ ) Agent-SafetyBench: Evaluating the Safety of
LLM Agents (Zhang et al. CoRR, 2024) Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents (Zhang et al. ICLR, 2025)

LLMベースエージェント学習

AgentTuning: Enabling Generalized Agent Abilities for LLMs (Zeng et al.
ACL Findings, 2024) • エージェントチューニング用指示データを合成 • 学習データドメインだけでなくドメイン外でも性能が向上 • 汎用指示データも混ぜて学習した方が良い (エージェント2 : 汎用8)

xLAM: A Family of Large Action Models to Empower AI
Agent Systems (Zhang et al. 2025, NAACL) • 既存エージェント用学習データをフィルタ • APIGen 方法を使ってツール呼び出しデータを合成

Recursive Introspection: Teaching Language Model Agents How to Self-Improve (Qu
et al. NeurIPS, 2024) • 誤り修正 (Reﬂexion 本論文で Introspection) を修正するため人工データ作成方法 • 他モデル誤り参考にならないで、自己によりオンポリシーで誤りを生成する

ATLaS: Agent Tuning via Learning Critical Steps (Chen et al.
ACL, 2025) • 軌跡中クリティカル (報酬に大きな影響を与える) なステップみから学習する • 軌跡全体から学習するより良い結果

Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for
Large Language Models (Chen et al. ACL Findings, 2024) • 学習データ中 ReACTやJSONなど規定フォーマットへ過学習問題 ◦ マルチターン対話に置き換えたデータから学習しか学習を抑制 • 基本能力（推論、検索、理解、指示追従）ごとに学習速度が異なる問題 ◦ 能力ごとデータバランスを調整 • ユーザー指示を無視してフォーマットに固執したり、存在しないツールを呼び出そうとしたりする「幻覚」問題 ◦ ツールリストを与えずにツールを要求した場合指示等へ対応を学習

強化学習 WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum
Reinforcement Learning (Qi et al. ICLR, 2025) RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning (Wang et al. arXiv, 2025)

LLM-jp 取り組み

llm-jp-4 • 今月llm-jp-4-8b (base / instruct / thinking) とllm-jp-4-32b-a3b (base
/ thinking) をApache license 2.0で公開 • 透明性観点から第三者が入手可能なコーパスで学習 Qwen3-8B や gpt-oss-20b と同等性能

エージェント SWG 紹介 • 研究員 ◦ 劉超然 (NII LLMC)
◦ 清丸寛一 (NII LLMC) ◦ 仲平依恵 (CMU / NII LLMC) ◦ 児玉貴志 (NII LLMC) ◦ Su Myat Noe (NII LLMC) ◦ Wu Yun-Ang (NII LLMC) • 外部協力者 ◦ 徳久良子 (愛工大) ◦ 山田育矢 (Studio Ousia / 理科大) • チューニング評価WG主幹 ◦ 宮尾祐介 (東大) • SWGリード ◦ 中山功太 (NII LLMC) • RA / 技術補佐員 ◦ 守山慧 (東大) ◦ 権藤拓 (北大) ◦ 清水綾太 (愛工大) ◦ 山口優輝（北大） ◦ 小谷理人 (慶應大) LLM-jpチューニング評価WG 元で以下メンバーで活動中開発だけでなく研究も含むためクローズドなグループ運営コミットいただける方ウェルカム

llm-jp-4 ツール呼び出し学習 • Harmony format で tool calling が可能な llm-jp-4
派生モデルを開発中 • なぜ Tool Calling 機能が必要か？ ◦ エージェント関連学習や利用を、統一されたインタフェースで容易に実現 ◦ より誤り少ないツール呼び出しを実現 <|start|>system<|message|>......<|end|> <|start|>developer<|message|>......<|end|> <|start|>user<|message|>What is the weather like in SF?<|end|> <|start|>assistant<|channel|>analysis<|message|>Need to use function get_current_weather.<|end|> <|start|>assistant<|channel|>commentary to=functions.get_current_weather <|constrain|>json<|message|>{"location":"San Francisco"}<|call|> <|start|>functions.get_current_weather to=assistant<|channel|>commentary<|message|>{"sunny": true, "temperature": 20}<|end|>... 関数定義クエリ推論関数呼び出し関数返り値 Harmony Template 関数呼び出し一例参考資料: https://developers.openai.com/cookbook/articles/openai-harmony

llm-jp-4 ツール呼び出し学習 • データ ◦ Nemotron-Agentic-v1(Nvidia) をベースに高品質な事後学習データを作成 • 学習 ◦
llm-jp-4 パイプラインと SFT データをベースに、上記データを追加して学習 ◦ 学習スクリプトを整備、データを正規化・合成開発版モデルと他8Bクラスモデルにおけるツール呼び出し精度比較（ BFCL-v1/v2） Model Non-live (BFCL-v1) Live (BFCL-v2) simple(python) simple(avg.) multiple simple multiple Qwen3-8B (FC) 94.50% 73.17% 95.00% 84.11% 79.30% Qwen3-8B (prompt) – 75.25% 95.00% 84.50% 78.92% llm-jp-4-8b w. fc (FC) 86.75% 62.58% 86.00% 74.81% 73.60% llm-jp-4-8b-instruct-0212 (prompt) 85.96％ – 86.00％ – – (FC): 規定システムプロンプト (Harmony)を用いて評価 (prompt): ユーザープロンプトに関数説明を入れて評価学習

ツール呼び出し日本語評価ベンチマーク JMultiWOZ-TC • マルチドメインタスク指向型対話データセットであるMultiWOZをツール呼び出し (Tool Calling) 用に再構築 • モデルによって日本語処理に起因するエラー傾向を確認 •
公開中: https://github.com/llm-jp/JMultiWOZ-TC

• エージェント向けオープンLLM 強いクローズモデル(GPT等)から学習しすぎ‼ • harmonyフォーマットここに困った‼ ◦ 公式パーサーにトークンIDがハードコーディングしてありトークナイザー
語彙が異なると使えない ◦ サポートが半年近く止まっている & issueも放置状態 ◦ 並列ツール呼び出しをサポートできない開発裏話同時にツールを呼ぼうとすると <user query> → <tool call> <tool result> → <response> → <tool call> → <tool result> → <response> となり非効率

• 基礎能力学習評価 ◦ ツール呼び出し → llm-jp-4.1 (予定) ◦ 計画
◦ 記憶管理 ◦ 内省 • 日本語学習評価 • 強化学習 (RLVR) • ジェネラリスト評価 • マルチモーダル入力対応エージェント SWGロードマップ次なるLLM-jpモデルをお楽しみに‼

AIエージェント時代のLLM-jpモデルのあるべき姿

AIエージェント時代のLLM-jpモデルのあるべき姿

More Decks by Kouta Nakayama

Other Decks in Research

Featured

Transcript