Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェント時代のLLM-jpモデルのあるべき姿

 AIエージェント時代のLLM-jpモデルのあるべき姿

SUMO.ai #03 - マルチモーダルAI技術勉強会での発表資料です。
https://sumo-ai.connpass.com/event/384316/

近年、大規模言語モデル(LLM)を基盤として自律的にタスクを遂行するAIエージェントが急速に発展しています。海外の大規模モデルでは、ツール利用や長期タスク実行、ソフトウェア開発支援など、LLMをエージェントとして活用する事例が広がっています。一方で、AIエージェントは外部ツールを用いて様々な操作を自律的に行うため、その挙動の信頼性が重要になります。このような背景から、国内で信頼できるAIエージェント基盤の構築が求められています。本講演では、我々が開発する国産オープンモデルLLM-jpを題材に、AIエージェントの概要、海外モデルとの比較、LLM-jpで実現できることと課題を整理します。また、エージェント化に向けた研究課題やLLM-jpコミュニティにおけるエージェントSWGの取り組みを紹介します。

Avatar for Kouta Nakayama

Kouta Nakayama

April 23, 2026

More Decks by Kouta Nakayama

Other Decks in Research

Transcript

  1. 自己紹介 コロナ禍に床屋に行く をサボって髪を伸 したら アイデンティティになってしまい迂闊に切れなくなりました 学歴 2025/03 筑波大学 情報工学研究群情報理工学位プログラム 博士(工学)取得

    2020/04 - 2023/03 筑波大学 情報理工学位プログラム 満期退学 2018/04 - 2020/03 豊橋技術科学大学 博士前期課程 情報・知能工学課程 修了 2014/04 - 2018/03 豊橋技術科学大学 情報・知能工学課程 卒業 職歴 2024/04 - 現在 国立情報学研究所 大規模言語モデル研究開発センター (NII LLMC) 特任研究員 2020/11 - 2024/03 理化学研究所 革新知能統合研究センター言語情報アクセス技術チーム リサーチアソシエ イト(常勤研究員) 理研時代 知識ベース構築とか固有表現抽出について研究 NII LLMCで 大規模言語モデル 研究開発に従事 (172Bモデル 学習を回していました ) 興味 LLM 応用寄り
  2. 自己紹介: 最近 研究① llm-jp-judge: 日本語LLM-as-a-Judge評価ツール構築 [1] [1] 中山 功太, 児玉

    貴志, 鈴木 久美, 宮尾 祐介, 関根 聡. llm-jp-judge: 日本語LLM-as-a-Judge評価ツール . 言語処理学会 第31回年次大会 , 2025. 優秀賞(上位2%) [2] Momoka Furuhashi, Kouta Nakayama, Takashi Kodama, Saku Sugawara. Are Checklists Really Useful for Automatic Evaluation of Generative Tasks? The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP2025 Main), 2025. [3] Momoka Furuhashi, Kouta Nakayama, Noboru Kawai, Takashi Kodama, Saku Sugawara, Kyosuke Takami. Which Feedback Works for Whom? Differential Effects of LLM-Generated Feedback Elements Across Learner Profiles. arXiv, 2026. LLM-as-a-Judgeにおいてチェックリスト 本当 に効果がある か ? [2] 最も学習者に好まれる FBタイプ 何か [3]
  3. 自己紹介: 最近 研究② 排他的逆学習: 解きたいタスク以外を全て忘却 [1] [1] Mutsumi Sasaki, Kouta

    Nakayama, Yusuke Miyao, Yohei Oseki, Masaru Isonuma. Exclusive Unlearning. arXiv, 2026. [2] 梶川怜恩, 中山功太, 小田悠介, 神田峻介, 赤部晃一, 二宮崇, 岡崎直観. Omni-JDocVQA: 多種多様な文書を含んだ日本語視覚文書理解ベンチマーク 構築 . 言語処理学会第 32 回年次 大会, 2026. Omni-JDocVQA: 自然な質問と多種多様な質問 文書理解ベンチマーク構築 [2] そ 他研究 ➡
  4. イントロ • LLM-jp 開発中 モデル 性能がそこそこ良くなってきた ◦ LLM-jp: 透明性・信頼性 高いLLMを作るオープンサイエンスコミュニティー

    • 質疑応答とか基礎知識 評価スコアで 海外 オープンモデルと同等性能 • 世 中 AIエージェント時代 ◦ コーディングAI ◦ フィジカルAI (ロボット) ◦ etc. • LLM-jpモデル まだエージェント 向け チューニング していない • エージェント向け 学習評価を行うSWGを9月に設置 • 今日 エージェント研究 動向を紹介(20分程度) + エージェントSWG 紹介
  5. AIエージェントと エージェント ある環境に配置されたコンピュータシステムであり、そ 環境において自律的な行動を実行し、設計目標 を達成する能力を有するも [1] AIエージェント 限定されたデジタル環境内で目標指向 タスク実行を目的として設計された自律的なソフトウェアエンティ ティ

    [2,3] LLMベースエージェント (LLM based agent) LLMを中核としたエージェント エージェンティック AI (マルチエージェントシステム ) 複数 専門化されたエージェントから構成され、より広範なワークフロー内でサブタスクを調整、通信、動 的に割り当てて共通 目標を達成するも [2,4] [1] Wooldridge and Jennings. Intelligent Agents: Theory and Practice. The Knowledge Engineering Review 10, 1995. [2] Acharya et al. Agentic ai: Autonomous intelligence for complex goals–a comprehensive survey. IEEE Access, 2025. [3] Sado et al, Explainable goal-driven agents and robots-a comprehensive review, ACM Computing Surveys, vol. 55, 2023. [4] Bornet et al. Agentic Artificial Intelligence: Harnessing AI Agents to Reinvent Business, Work and Life. Irreplaceable Publishing, 2025.
  6. LLMベースエージェント 基本概念 メモリ読み書き 計画 内省 ツール呼び出し ツール応答 クエリ 終了 回答生成

    回答 Yes No ツール インターネット デバイス 現実 環境 明日 天気 ? ①デバイスから現在地と日時を取得 ②インターネットから天気を取得 晴れやで。 ①ユーザー 現在地と今 日 日付を確認する。 ②天気を取得する。
  7. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

    (Qin et al. ICLR, 2024) • ツール呼び出しをZero-shotに汎化した初期 研究 ◦ Zero-shot: 未知 APIドキュメントが与えられた時に正しく呼べるかどうか • RapidAPI 大量 APIコレクションとLLM (ChatGPT) により人工データを作成、マルチパ ス探索で正解 ツール呼び出しパスをフィルタ
  8. ReAct: Synergizing Reasoning and Acting in Language Models (Yao et

    al. ICLR, 2023) 推論 ツール 呼び出し • LLMベースエージェント 初期的な研究 • Few-shotで推論 (Reasoning) と行動 (Action) を交互に行う
  9. MemoryBank: Enhancing Large Language Models with Long-Term Memory (Zhong et

    al. AAAI, 2024) 記憶 • 対話エージェントにおいて自然な記憶を導入 • あまり参照されない記憶 忘却されやすく、繰り返し参照される記憶 さ れにくくしている
  10. Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

    (Wang et al. ACL, 2023) • 計画 (Planning) 初期的な研究 • 事前に計画を立てさせるようなプロンプトを与えることで、Chain-of-Thought (CoT) 推論を強化 Plan-and-Solve CoT 計画
  11. Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al.

    NeurIPS, 2023) 記憶 記憶 内省 • 行動が失敗した際に、そ 行動を内省 (Reflection) し長期メモリに格納する ことで次 行動に活かす
  12. VOYAGER: An Open-Ended Embodied Agent with Large Language Models (Wang

    et al. TMLR, 2024) 記憶 内省 計画 • オープンエンドな環境において自律的に行動するLLMエージェント 走り • 長期的なタスクに効率的に取り組むため、再利用可能なスキルを記憶として保 持
  13. Generative Agents: Interactive Simulacra of Human Behavior (Park et al.

    UIST, 2023) • ペルソナを与えて25人 村人をシミュレー ション • 内省 (Reflection) 、計画 (Planning) 、記 憶 (Memory) がシミュレーションに重要で あることを示した 記憶 計画 内省
  14. Mixture-of-Agents Enhances Large Language Model Capabilities (Wang et al. ICLR,

    2025) • Mixture-of-Expert (MoE) っぽい配置 マルチエージェント • 性能 上がるがTFlopsも増える
  15. 評価から見る AIエージェント Yehudai et al. Survey on Evaluation of LLM-based

    Agents. Arxiv, 2025. Mohammadi et al. Evaluation and Benchmarking of LLM Agents: A Survey. KDD, 2025.
  16. The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to

    Agentic Evaluation of Large Language Models (Patil et al. ICML 2025) • マルチターン対話を想定した ツール呼び出し評価リー ダーボード • Python、Java、JavaScript、 REST API、SQL 関数が対 象 • ユーザーが追加したタスク (Live) も扱っている
  17. τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (Yao

    et al. ICLR, 2025) • ツール呼び出し マルチターン評価 • ローカルにAPIを構築&LLMによりユーザーをシミュレートすることで自然にマルチ ターン評価
  18. PlanBench: An Extensible Benchmark for Evaluating Large Language Models on

    Planning and Reasoning about Change (Valmeekam et al. NeurIPS, 2023) • LLM Planning 能力を評価 • 片手でブロックを積み替えるような簡単なタスク
  19. MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based

    Agents (Tan et al. ACL Findings, 2025) • ユーザーと 対話、もしく ユーザー同士 対話 観察で過去 対話内容を記 憶できるか評価 • 事実だけでなく、ユーザー 甘い食べ物が好きといったメタに推測される内容も記 憶できているか測る
  20. WebArena: A Realistic Web Environment for Building Autonomous Agents (Zhou

    et al. ICLR, 2024) • 仮想環境上 ウェブアプリ (オンラインショッピング、ソーシャルフォーラム、共同ソ フトウェア開発、ウェブコンテンツ管理) で エージェント タスク遂行を評価
  21. OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer

    Environments (Xie et al. NeurIPS, 2024) • Open-Endedなマルチモー ダルベンチマーク • Ubuntu、Windows、 macOSなど GUIを操作す るタスク
  22. AgentBench: Evaluating LLMs as Agents (Liu et al. ICLR, 2024)

    • CUI環境で エージェント評価 • コード(OS、データベース、ナレッジグラフ)、ゲーム(デジタルカードゲーム、水平 思考パズル、家事)、ウェブ(ウェブショッピング、ウェブブラウジング)
  23. VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents (Liu

    et al. ICLR, 2025) • GUI環境で エージェント評価 • 家事シミュレーション、オープンワールドゲーム、スマホアプリ操作、ウェブブラウ ジング、ウェブデザイン修正
  24. 安全性 (セーフティ / セキュリティ ) Agent-SafetyBench: Evaluating the Safety of

    LLM Agents (Zhang et al. CoRR, 2024) Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents (Zhang et al. ICLR, 2025)
  25. AgentTuning: Enabling Generalized Agent Abilities for LLMs (Zeng et al.

    ACL Findings, 2024) • エージェントチューニング用 指示データを合成 • 学習データ ドメインだけでなくドメイン外でも性能が向上 • 汎用指示データも混ぜて学習した方が良い (エージェント2 : 汎用8)
  26. xLAM: A Family of Large Action Models to Empower AI

    Agent Systems (Zhang et al. 2025, NAACL) • 既存 エージェント用学習データをフィルタ • APIGen 方法を使ってツール呼び出しデータを合成
  27. Recursive Introspection: Teaching Language Model Agents How to Self-Improve (Qu

    et al. NeurIPS, 2024) • 誤り 修正 (Reflexion 本論文で Introspection) を修正するため 人工 データ作成方法 • 他 モデル 誤り 参考にならない で、自己によりオンポリシーで誤りを生 成する
  28. ATLaS: Agent Tuning via Learning Critical Steps (Chen et al.

    ACL, 2025) • 軌跡中 クリティカル (報酬に大きな影響を与える) なステップ みから学習 する • 軌跡全体から学習するより良い結果
  29. Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for

    Large Language Models (Chen et al. ACL Findings, 2024) • 学習データ中 ReACTやJSONなど規定 フォーマットへ 過学習問題 ◦ マルチターン対話に置き換えたデータから学習しか学習を抑制 • 基本能力(推論、検索、理解、指示追従)ごとに学習速度が異なる問題 ◦ 能力ごと データバランスを調整 • ユーザー 指示を無視してフォーマットに固執したり、存在しないツールを呼び出そうとしたり する「幻覚」問題 ◦ ツールリストを与えずにツールを要求した場合 指示等へ 対応を学習
  30. 強化学習 WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum

    Reinforcement Learning (Qi et al. ICLR, 2025) RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning (Wang et al. arXiv, 2025)
  31. llm-jp-4 • 今月llm-jp-4-8b (base / instruct / thinking) とllm-jp-4-32b-a3b (base

    / thinking) をApache license 2.0で公開 • 透明性 観点から第三者が入手可能なコーパスで学習 Qwen3-8B や gpt-oss-20b と同 等性能
  32. エージェント SWG 紹介 • 研究員 ◦ 劉 超然 (NII LLMC)

    ◦ 清丸 寛一 (NII LLMC) ◦ 仲平 依恵 (CMU / NII LLMC) ◦ 児玉 貴志 (NII LLMC) ◦ Su Myat Noe (NII LLMC) ◦ Wu Yun-Ang (NII LLMC) • 外部協力者 ◦ 徳久 良子 (愛工大) ◦ 山田 育矢 (Studio Ousia / 理科大) • チューニング評価WG主幹 ◦ 宮尾 祐介 (東大) • SWGリード ◦ 中山 功太 (NII LLMC) • RA / 技術補佐員 ◦ 守山 慧 (東大) ◦ 権藤 拓 (北大) ◦ 清水 綾太 (愛工大) ◦ 山口 優輝(北大) ◦ 小谷 理人 (慶應大) LLM-jpチューニング評価WG 元で以下メンバーで活動中 開発だけでなく研究も含むためクローズドなグループ運営 コミットいただける方 ウェルカム
  33. llm-jp-4 ツール呼び出し学習 • Harmony format で tool calling が可能な llm-jp-4

    派生モデルを開発中 • なぜ Tool Calling 機能が必要か? ◦ エージェント関連 学習や利用を、統一されたインタフェースで容易に実現 ◦ より誤り 少ないツール呼び出しを実現 <|start|>system<|message|>......<|end|> <|start|>developer<|message|>......<|end|> <|start|>user<|message|>What is the weather like in SF?<|end|> <|start|>assistant<|channel|>analysis<|message|>Need to use function get_current_weather.<|end|> <|start|>assistant<|channel|>commentary to=functions.get_current_weather <|constrain|>json<|message|>{"location":"San Francisco"}<|call|> <|start|>functions.get_current_weather to=assistant<|channel|>commentary<|message|>{"sunny": true, "temperature": 20}<|end|>... 関数 定義 クエリ 推論 関数呼び出し 関数 返り値 Harmony Template 関数呼び出し 一例 参考資料: https://developers.openai.com/cookbook/articles/openai-harmony
  34. llm-jp-4 ツール呼び出し学習 • データ ◦ Nemotron-Agentic-v1(Nvidia) をベースに高品質な事後学習データを作成 • 学習 ◦

    llm-jp-4 パイプラインと SFT データをベースに、上記データを追加して学習 ◦ 学習スクリプトを整備、データを正規化・合成 開発版モデルと他8Bクラスモデルにおけるツール呼び出し精度 比較( BFCL-v1/v2) Model Non-live (BFCL-v1) Live (BFCL-v2) simple(python) simple(avg.) multiple simple multiple Qwen3-8B (FC) 94.50% 73.17% 95.00% 84.11% 79.30% Qwen3-8B (prompt) – 75.25% 95.00% 84.50% 78.92% llm-jp-4-8b w. fc (FC) 86.75% 62.58% 86.00% 74.81% 73.60% llm-jp-4-8b-instruct-0212 (prompt) 85.96% – 86.00% – – (FC): 規定 システムプロンプト (Harmony)を用いて評価 (prompt): ユーザープロンプトに関数 説明を入れて評価 学習
  35. • エージェント向け オープンLLM 強いクローズモデル(GPT等)から 学習しすぎ‼ • harmonyフォーマット ここに困った‼ ◦ 公式パーサーにトークンIDがハードコーディングしてありトークナイザー

    語彙 が異なると使えない ◦ サポートが半年近く止まっている & issueも放置状態 ◦ 並列ツール呼び出しをサポートできない 開発裏話 同時にツールを呼ぼうとすると <user query> → <tool call> <tool result> → <response> → <tool call> → <tool result> → <response> となり非効率
  36. • 基礎能力 学習評価 ◦ ツール呼び出し → llm-jp-4.1 (予定) ◦ 計画

    ◦ 記憶管理 ◦ 内省 • 日本語学習評価 • 強化学習 (RLVR) • ジェネラリスト評価 • マルチモーダル入力対応 エージェント SWGロードマップ 次なるLLM-jpモデルをお楽しみに‼