Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
January 12, 2025

Weekly AI Agents News!

2025年1月13日更新済み。次回1月27日更新予定
AI エージェントに関する論文かニュースをシンプルにまとめます。

X : @ottamm_190

masatoto

January 12, 2025
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 12/30~1/10まで ツール利用 • ToolHop: A Query-Driven Benchmark for Evaluating

    Large Language Models in Multi-Hop Tool Use 推論 • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought • Test-time Computing: from System-1 Thinking to System-2 Thinking 学習 • AgentRefine: Enhancing Agent Generalization through Refinement Tuning • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action Agent Framework • Agents Are Not Enough • Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering • Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents • Agentic Systems: A Guide to Transforming Industries with Vertical AI Agents • Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches
  2. 論文 12/30~1/10まで Agentic AI System • User Simulation in the

    Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation • OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System Agentic RAG • Search-o1: Agentic Search-Enhanced Large Reasoning Models Software Agents • Training Software Engineering Agents and Verifiers with SWE-Gym(紹介しない) • SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution(紹介しない) GUI Agents • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis • A3: Android Agent Arena for Mobile GUI Agents(紹介しない) • InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection(紹介しない) Data Agents • MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large language Model Research Agent • DOLPHIN: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback(紹介しない) • Agent Laboratory: Using LLM Agents as Research Assistants • LLM4SR: A Survey on Large Language Models for Scientific Research
  3. マルチホップツール利用の評価データセットを提案 ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models

    in Multi-Hop Tool Use マルチホップツール利用 • モデルが複数のステップにわたってツールを使用しながら情報を収集し最終的な回答を導く GPT-4oでさえマルチホップツール利用の精度が49.04%にとどまり、改善の余地が大きい • 直接解答(Direct Answer): モデルがツールを使用せずにクエリを解く場合の正確性を測定 • 必須ツール利用(Mandatory Tool Use): モデルがツールを必須の状況で正確性とツール利用エラーを測定 • 自由選択(Free Choice): ツールの使用が任意で、モデルが独自に判断して問題を解く場合の性能を測定 ツールの例 歴史検索、計算機、アルバムリリース日検索、発明者検索 Agent Capabilities: ツール利用 1月13日 更新分
  4. SynthLabs.ai から思考するモデルを作る方法の解説 Towards System 2 Reasoning in LLMs: Learning How

    to Think With Meta Chain-of-Thought Meta-CoT Reasoningとは何か? • Meta-CoTは、探索と検証のプロセスを統合し、反復的で非線形的な推論を可能にする Meta-CoT Reasoningのプロセス 1. 探索(Search) • 問題解決の途中で複数の選択肢を試みるために、探索アルゴリズムを活用する • 例: モンテカルロ木探索(MCTS)やA*アルゴリズムを使用して最適な解決策を探索 2. 検証(Verification) • 各探索ステップで生成された結果が有効かどうかを評価する • 検証には、プロセス報酬モデル(PRM)や、結果を評価するための検証器(verifier)が使用される 3. 自己修正(Self-Correction)とバックトラック(Backtracking) • モデルは誤りを認識した際に、自ら解決策を修正する能力を持つ • また、探索過程で失敗した場合、過去の探索ステップに戻って別の経路を試すことができる 実験結果 • 推論能力の向上: Meta-CoTは、従来のCoTよりも難易度の高い問題において顕著に優れた性能を発揮 • 効率性の改善: 探索プロセスを内包することで、より少ない推論コストで高い精度の解答を生成可能 • 課題の発見: モデルが自己修正や検証を学習するには、十分なデータと訓練が必要であることが明らかに Agent Capabilities: 推論 1月13日 更新分
  5. MLのテスト時の計算量を増やすことはどんな意味がある? Test-time Computing: from System-1 Thinking to System-2 Thinking テスト時の計算を活用して、AIモデルがより高度な「System-2型思考」を実現するための手法や進展を紹介

    System-1思考 • System-1モデルでは訓練時の分布に基づいて直感的な処理が強みだが、未知の分布に対するロバスト性が欠ける • テスト時の計算を増やして、分布変化への適応やモデルのロバスト性・一般化能力を向上させる System-2思考 • System-2モデルでは高度な推論が可能だが、計算コストが高く効率化が必要 • テスト時の計算を増やして、人間の認知プロセスに近い高度な推論能力を目指す Agent Capabilities: 推論 1月13日 更新分
  6. エージェントの未知環境の適応と自己修正能力を高める学習方法の提案 AgentRefine: Enhancing Agent Generalization through Refinement Tuning エージェントが自己修正し、未知環境への適応能力を向上させるAgentRefine 学習フレームワークを提案

    • 現在のエージェント調整(Agent-Tuning)技術は、訓練データと同じ環境では良い性能を示すものの、新しい環境には 十分に一般化できない • フォーマットエラー、非論理的な推論、反復的な誤った生成が主な問題として挙げられる Refinement Tuning • エラーを含む軌跡データを生成し、リファインメントデータセットとする • データセットには多様な環境でドメインを増やして汎化性能を高める • エラーを直すことを学習させる一方で、エラーを生成することが誤学習されないよう損失を抑制 Agent Capabilities: 学習 1月13日 更新分
  7. マルチモーダルな大規模行動モデルとそのデータセット作成方法を提案 TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action Multi-modal

    large action modelsのTACOを開発 • 推論中にChains-of-Thought-and-Action (CoTA) を生成し、中間ステップでOCR、深度推定、計算などの外部ツールを実行 • TACOの学習には高品質なCoTA用の人工データセット(293K例)を用いる 結果 • TACOは様々なタスク(OCR、数学的推論、空間的推論を含む)で既存モデルを上回る性能を達成 • CoTAデータのうち、誤答の軌跡や直接回答、CoTの軌跡を学習に入れると精度が下がる • ツール呼び出しが多いデータセットやCoTAの成功軌跡の割合を高めることで、モデルの推論能力と行動選択の精度を向上 Agent Capabilities: 学習 1月13日 更新分
  8. 今のエージェントに足りないことは? Agents Are Not Enough 現代のAI技術だけではタスクを自律的に実行する潜在能力を十分に引き出せない これまでのエージェント開発の失敗例を分析し、現在のエージェント技術の課題を特定 エージェントの課題 • 汎用性の欠如、スケーラビリティの問題、コミニケーションの課題、ロバスト性の欠如、倫理的課題と安全性

    エージェントだけでは不十分な理由 • 価値の創出:自律的に実行する過程でユーザーが頻繁に介入や修正をする場合、エージェントの利用価値が低下する • 適応可能なパーソナライズ:各ユーザーや状況に応じた柔軟な対応が十分に実現されいない • 信頼性:リスクの伴う高度なタスクを遂行するほど、ユーザーの信頼が重要になる • 社会の受容:ユーザーの代理として取引や交渉を行うのを社会が受け入れるには時間がかかる • 開発の標準化:エージェント開発や利用が分散化されているため、互換性や信頼性の確保が難しい Agent Framework 1月13日 更新分
  9. 複雑なテーブル質問応答 (TQA) 用のマルチエージェント協調フレームワークを提案 Efficient Multi-Agent Collaboration with Tool Use for

    Online Planning in Complex Table Question Answering エージェントの内部アルゴリズム 1. 計画エージェントが行動(意図と指示文)を複数候補選択し、多数決で行動を選択する 2. 選択された行動に基づき、対応するツールを選択する 3. 行動と実行結果をメモリに記録する 4. 計画エージェントが「Finish」を生成するまで繰り返す 行動の種類 Agent Framework 1月13日 更新分
  10. 人間の「直感的な判断」と「熟考的な分析」を模倣した推論フレームワークを提案 Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection

    agents 複数の推論パスを並列実行し、各結果を統合して最適な解答を導き出す 1. 初期推論の生成 • 反応型(Reactive)エージェントが外部環境から質問を受け取り、初期推論を実行(直感的な判断) • この結果は「仮の解答」として共有メモリに格納 2. 内省(Reflection)による分析と修正 • 内省型エージェントは共有メモリから初期解答を取得し、精査と修正(熟考的な分析) • サブタスクを細分化して外部知識やツールを活用し、推論を深める 3. 結果の統合 • 各パスの結果を統合し、最終的な解答を生成 • 統合時には複数の推論パスの結果を比較して、最も適切なものを選択 異なるロールで複数パスを実行する方が良い結果 Agent Framework 1月13日 更新分
  11. 業界に特化した「垂直型AIエージェント」のガイド Agentic Systems: A Guide to Transforming Industries with Vertical

    AI Agents 従来のSaaSプラットフォームの限界 • 水平型の汎用性により一般的な業務プロセスを効率化する一方で、特定の業界や複雑な環境への対応力に欠けている 垂直型AIエージェントの設計基盤 • メモリ、推論エンジン、認知スキル、ツールの4つの主要モジュールで構成 • 各モジュールが相互作用し、ドメイン知識を活用しながら、複雑なタスクを効率的に解決 設計パターン • タスク特化型エージェント: 個別タスクを効率的に解決 • マルチエージェントシステム: 複数エージェントが連携し、複雑なタスクを分担 • 人間拡張型エージェント: 人間のフィードバックを取り入れ、信頼性と適応性を強化 ユースケース • 医療: 診断支援、患者データ統合、治療計画策定 • 金融: リスク評価、ポートフォリオ管理、投資分析 • 法務: 契約レビュー、法的リサーチ、規制準拠の検証 • 物流: 在庫管理、供給チェーン最適化、リアルタイムの障害対応 Agent Framework 1月13日 更新分
  12. AGIに必要な能力とは何だろう?LLMはAGIになりうるのか Large language models for artificial general intelligence (AGI): A

    survey of foundational principles and approaches • AGIは、広範な知的能力を持ち、多様で複雑な認知タスクを追加の学習なしに遂行できるAIシステムを指す • 高度な認識、計画、推論、学習能力を備え、新しい状況や未知のタスクにも柔軟に対応できる点が特徴 必要な特徴 AGI能力への主な貢献 LLMでの実現方法 一般的なコメント 目標認識(Goal-awareness) ・自律性を強化する ・プロアクティブな行動を可能にする ・行動の一貫性を確保する ・複数のタスクを同時に処理する能力を強化する ・柔軟で適応可能な行動を促進する ・協力的なタスク遂行を促進する ・異常な状況からの復旧能力を向上させる ・データから暗黙的に学習する ・入力プロンプト内で目標を明示的に指定する ・目標認識に特化したデータセットで微調整を行 う ・深層学習モデルに明示的に目標を組み込む ・LLMの目標認識は特定のタスクに関する 低レベルの目標に限られており、すべての 状況で行動を導く高次目標には達していな い。 自己認識(Self-awareness) ・自身の限界を理解し、必要に応じて外部リソース を効果的に利用できる ・信頼性と安全性を向上させる ・内省を通じて継続的な学習と自己改善を促進する ・コンテキスト学習を活用する ・自己認識データセットで微調整を行う ・RLHFを使用する ・自己認識は本質的にタスク依存であり、 エージェントは限られた設定内で自己認識 を持つ可能性がある。 ・現在のところ、LLMの自己認識全体を評 価する方法はない。 状況認識(Situatedness) ・戦略的行動を促進する ・高レベルの文脈理解を強化する ・倫理的および社会的知能を促進する ・環境や他のエージェントとの相互作用を向上する ・危険やリスクを伴う状況や行動を認識して回避 ・現実世界のデータセットから深く学ぶ ・3Dグラフィックスツールを使用した合成データ セットを利用 ・ゲームエンジンに基づくインタラクティブなモ デルを使用 ・エゴセントリックデータセットは静的で インタラクティブではなく、大規模な作成 やスケールには高コストがかかる。 ・仮想ワールドモデルは非常にインタラク ティブでスケーラブルだが、Sim-to-Real ギャップの課題がある。 思慮のある行動(Deliberate action) ・本質的にエージェンシー(主体性)を可能にする ・長期的な計画を促進する ・物理的な相互作用の主要な仕組みとして機能する ・低レベルの感覚運動制御の手段として機能する ・ツールによりエージェントの能力を拡張する ・VLA(Vision-Language-Action)モデルなどの 特別な基盤モデルを使用 ・外部ツールの活用 ・神経記号的アプローチを使用したアクション シーケンスの学習 ・LLMエージェントが物理的な行動を実行 する能力は、明確なステップに分解できる シンプルな行動に限定されている。 Agent Framework 1月13日 更新分
  13. ユーザーシミュレーションの必要性を考える User Simulation in the Era of Generative AI: User

    Modeling, Synthetic Data Generation, and System Evaluation ユーザーシミュレーション • タスク(T)システム(S)ユーザー情報(U)の3つの変数に基づいて、ユーザー行動をシミュレーションする 利用用途 1. ユーザーモデリング:システムのパーソナライズと改善を支援 2. 合成データ生成:データ不足を補い、機械学習モデルをトレーニング 3. システム評価:大規模かつ再現可能な方法でAIシステムの性能を評価 シミュレーション応用例 • ECサイト商品の満足度評価 • 推薦システムのための視聴する映画選定 • 個別指導型AI教育システムの教育評価 Agentic AI Systems 1月13日 更新分
  14. 様々な知識抽出をこなすマルチエージェントシステムの登場 OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

    提案手法「OneKE」は エージェントでニュースや特許など多様な知識抽出タスクに対応することを目的 とする • スキーマエージェント: ユーザーからのタスクに応じたスキーマ(出力形式)を生成 • 抽出エージェント: スキーマをもとに知識を抽出 • リフレクションエージェント: エラーケースを分析・修正 • 事前定義のスキーマリポジトリや成功や失敗基準のケースリポジトリも用意し更新していく Agentic AI Systems 1月13日 更新分
  15. GUIエージェントの操作の軌跡データを自動的に生成するパイプラインを提案 OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task

    Synthesis 探索駆動型のデータ合成方法 1. 環境探索 • エージェントがGUI環境を探索し、画面の各UI要素に対して行動(クリック、入力、スクロールなど)を実行 • 各行動前後のスクショ(状態)と行動を状態遷移データとして記録 2. 低レベルタスク合成 • 状態遷移データを基に、具体的な操作(低レベルタスク)を合成 • 例:「ドロップダウンメニューをクリックしてオプションを表示」など 3. 高レベルタスク合成 • 低レベルタスクを統合し、全体的な目的を持つ高レベルタスクを合成 • 例:「イベントをスケジュールする」「商品をカートに追加する」など 軌跡報酬モデル(TRM): 合成データの質を評価し、タスク達成度や論理的一貫性を基にスコアリング OS-Genesisは、従来手法では見逃されがちな操作やタスクを含み、精度もデータ多様性も向上した 項目 タスク駆動型データ合成 OS-Genesis タスクの起点 事前定義されたタスク 環境の探索に基づくタスク作成 データの多様性 低い(固定された操作に限定される) 高い(柔軟で多様な操作が可能) 人間の関与 必要(タスク設計と操作の実行) 不要(完全に自動化) コスト 高い 低い データの質と量 制限あり(スケールが難しい) 高品質で大規模なデータ生成が可能 Digital Agents 1月13日 更新分
  16. エージェントにデータ分析の洞察を語らせる MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large

    language Model データストーリーテリング(Intelligent Data Storytelling) • データ分析プロセスを自動化する手法で、わかりやすく、説得力のある「物語」として伝えることを目的とする ビジネス分析 売上データやユーザー行動を解析し、売上向上のための戦略を提案 売上のトレンドや異常値を検出し、その背景を説明 マーケティング キャンペーンの効果を分析し、次の施策に活用可能なインサイトを提供 提案手法は、多次元データ分析のデータストーリーテリングを提案 • インサイト発見、文脈に基づくストーリーテリングの2段階 データ分析のインサイト評価項目 • 重要性、意義、ユーザーの驚き、似たような洞察度合い、解釈可能性 Data Agents 1月13日 更新分
  17. 研究の自動化はo1-previewを使うとさらに結果の質が上がるのか Agent Laboratory: Using LLM Agents as Research Assistants Agent

    Laboratoryは、研究プロセス全体を自動化し、科学的発見を加速するために設計されている 文献レビュー • LLMエージェントが、arXiv APIを使用して関連する研究論文を検索し、要約を作成し、最適な論文セットをキュレーションする • o1-previewを使うと論文の関連性が高く、研究の背景説明が充実した 実験 計画作成: PhDエージェントとPostdocエージェントが共同で、実験計画を策定する データ準備: エージェントがPythonコードを自動生成して、データの前処理を行う 実験実行:mle-solverというモジュールを使用して、機械学習コードの生成、テスト、改良を自律的に行う レポート作成 • paper-solverモジュールを使用して、LaTeX形式で学術論文を自動生成する • o1-previewを使うと学術論文の規範に忠実であり、会議提出用フォーマットに適合した 実験結果 o1-preview, o1-mini, gpt-4oで実験比較 • 実験の質はo1-miniがベスト • レポートの質はo1-previewがベスト • 最終的にはo1-previewが最も良い結果に Research Agents 1月13日 更新分
  18. 研究の自動化に向けたサーベイ論文 LLM4SR: A Survey on Large Language Models for Scientific

    Research 科学的仮説の発見 • LLMは科学的知識やデータに基づき、新しい研究仮説を生成する可能性を持っている • LLMが関連文献でインスピレーションを受けて仮説を生成し、新規性や妥当性による評価フィードバックを受け改良する 実験の計画と実施 • 実験計画の最適化や自動化を通じて、研究者の労力を軽減し、効率を向上させる • LLMが複雑なタスクの分解、実験条件の決定、リソース判断、データ準備、実験の実行、データ解析をする 科学論文の執筆 • LLMは引用文生成、関連研究セクションの作成、ドラフトの執筆に役立つ • 正確性や一貫性の維持、盗用など学術的倫理問題に課題がある 査読 • 査読プロセスでLLMsを利用することで、効率性と一貫性を向上させる • 論文の要約、評価コメントの生成をするが、専門分野特有の概念や手法の理解が不十分 Research Agents 1月13日 更新分
  19. 1月13日 更新 リリース • Introducing smolagents, a simple library to

    build agents ブログ • 3 Predictions for the Future of AI Agents in 2025 • AI Agents 2024 Rewind - A Year of Building and Learning • The Agentic AI Era: After the Dawn, Here’s What to Expect • Introducing Agentic Document Workflows • Integrating AI Agents into Companies
  20. Introducing smolagents, a simple library to build agents HuggingFaceからsmolagentsというPythonライブラリが登場 いつエージェントが必要になるか

    • ワークフローをあらかじめ定義できる場面では、手続き的に実装した方が単純で信頼性が高い • しかし、柔軟性が求められるタスク(複雑な問い合わせや外部情報を組み合わせる必要がある場面)ではエージェントが有効 smolagentsの特徴 • CodeAgentを使うと、LLMが出力するコードをサンドボックス環境で実行できる • 従来の「JSON形式のツール呼び出しエージェント」もサポート • エージェントを作るには「ツール」と「モデル」が必要 • 既存のtransformers.agentsを置き換える予定 https://huggingface.co/blog/smolagents 1月13日 更新分
  21. 3 Predictions for the Future of AI Agents in 2025

    マルチエージェントネットワークの台頭 • 単一エージェントが成熟したため、エージェントが他のエージェントを発見して協力できるエージェントのネッ トワーク/システムが重要になると予想 垂直型エージェントのSaaS時代 • 2025 年に初めて 10 億ドル規模の垂直統合型 AI エージェント企業が出現する年になると予想 • 例)情報の収集に関わるタスクを処理するAIエージェント • 例)デジタル出力(ドキュメント、電子メール、レポートなど)を生成できるエージェント • 例)一般的なソフトウェアツールとプラットフォームの使用方法を知っているエージェント • 例)これらのタスクを便利なワークフローにまとめることができるエージェント デジタルライフの一部を担うエージェント • AI エージェントが私たちのデジタル プロキシとなり、私たちの好みを理解すると予想 • 例)あなたの好みやパターンを理解するAIエージェント • 例)あなたに代わってウェブサイトやツールをナビゲートできるエージェント • 例)複雑で多段階のタスクを処理できるエージェント(常時監視なし) https://simple.ai/p/3-predictions-for-the-future-of-ai-agents-in-2025 1月13日 更新分
  22. AI Agents 2024 Rewind - A Year of Building and

    Learning 2024 年の AI エージェントの構築と研究から得られた 5 つの事項 1. 多くの企業やスタートアップは製品に「エージェント」という用語を採用 • エージェントは、ユーザーの時間を節約し、面倒で忙しい作業を回避することを目指す • エージェントは自然言語リクエストを複数の API 呼び出しに変換する薄いオーケストレーション レイヤーとして機能 2. 研究チームは「エージェントネイティブ」な基盤モデルをゼロから構築している • エージェント機能が生成モデル自体に「組み込まれている」 • 既に計画部分はLarge Reasoning Modelに組み込まれている 3. インターフェース自動化エージェントが主役に • APIやコード操作からユーザーインターフェイス (Web、デスクトップ) を直接操作する 4. 複雑なタスクへの移行とフレームワークの台頭 • アプリ開発など、より複雑で自律的なユースケースさらには汎用への移行の年 • 重要な課題:タスクの選択(分岐ロジック、リフレクション、メタ認知など)を効果的に実装する方法 5. ベンチマークは進歩と限界の両方を明らかにする • 専門家エージェントは狭いドメインで優れた能力を発揮したが、汎用エージェントは複雑で制限のないタスクに苦戦 2024 年がエージェントが問題解決の実行可能なアプローチとして登場した年であったとすれば、2025 年はエージェ ントが特定の問題領域において事実上最高のパフォーマンスを発揮する https://www.zenml.io/blog/llm-agents-in-production-architectures-challenges-and-best-practices 1月13日 更新分
  23. Integrating AI Agents into Companies 企業がAIエージェントを活用しようとする際のポイントをまとめた記事 AIは「高速」「大容量の情報処理」が強みの一方で、人間が当たり前に持っている社会的・組織的コンテクストを理解しづらい 文書化の徹底 • 組織の構造や手順を「wiki」などに大規模にまとめ、AIエージェントの参照可能な情報を整備する。

    • 書面ベースにすることで、AIが人間に質問したり関係構築したりする必要を減らし、速度を活かせる。 レビューから「事前承認+監視」へ • 多数の担当者によるレビューは遅れの原因になるため、要件や単体テストをAIが自動生成し、合格すれば先に進める仕組みに移行する。 • その後、異常が発生した場合に監視システムが検知する形で品質を確保する。 「ストップワーク権限(Stop Work Authority)」の導入 • トヨタ生産方式のように、疑わしい不具合を検知したら即座に作業を止める仕組みをAIにも与える。 • 人間は迅速に原因を確認し、文書や手順・モデルを修正する。 「Design for AI」を意識した設計 • 工場などで「Design for Manufacturing(製造を意識した設計)」があるように、AIが得意とするタスク構成を前提に業務プロセスや製品設 計を見直す。 • 上流工程で十分検討し、後工程の手戻りを最小化する。 ヒトの関与を最小化し、会議文化を減らす • 作業フローを自動化し、人間が承認やレビューで待ち時間を生まないようにする。 • 情報共有や進行管理は文書化を基本とし、不要な定例会議を削減する。 https://www.austinvernon.site/blog/aimanagement.html 1月13日 更新分
  24. Introducing Agentic Document Workflows 「Agentic Document Workflows (ADW)」は、ドキュメントを核とした複数ステップのビジネスプロセスをエン ドツーエンドで自動化・最適化する仕組み 代表的なユースケース

    1. 契約書レビュー(コンプライアンス分析) • 規制要件との照合、リスク箇所の特定、提案の生成 • 法務部門を支援しながら最終判断は人が行う 2. 医療文書の患者ケース要約 • 多様な医療文書からの情報抽出・整理、診断支援 • 患者履歴や治療経過を一元的に把握し、ガイドラインと照合 3. 請求書処理 • 支払いタイミング最適化や価格検証を自動化 • 経理業務の効率化とキャッシュフロー最適化に貢献 4. 自動車保険のクレーム処理 • 申請フォームや保険証券情報を照合し、必要情報を整理 • 担当者が最終的に判断する情報を構造化して提示 https://www.llamaindex.ai/blog/introducing-agentic-document-workflows 1月13日 更新分
  25. The Agentic AI Era: After the Dawn, Here’s What to

    Expect SalesforceのAIプラットフォーム「Agentforce」のローンチを起点として、これからのビジネス環境が「Agentic AI」の時代に突入すると主張している 企業向けAIエージェントの3つのステージ ステージ1: 「モノフォニック」AI(専門特化型) • 特定のタスクや業務領域で卓越した性能を発揮 • 例: 在庫管理や請求処理、予測分析、パーソナライズされた商品推奨など、明確なタスクを高速かつ正確に実行 ステージ2: 「ポリフォニック」AI(複数エージェントの協調) • 社内の複数の専門エージェントを「オーケストレーター」が束ね、共通のビジネスゴールを達成 • 例: カスタマーサービスで、在庫・配送・請求関連のエージェントが連携し、最終的に人間がチェックして顧客対応を行う • メリット: 信頼性・セキュリティが向上し、専門分野ごとにAIを拡張しやすい ステージ3: 「アンサンブル」AI(企業を超えたエージェント連携) • 社外の組織や個人のエージェント同士が自動的かつ安全にやり取りする新しいビジネスモデルを創出 • 例: 個人のAIエージェントと企業のAIエージェントが、価格交渉や契約締結を自動で行う • 要件: お互いの利害調整、リスク管理、ゲーム理論に基づく交渉など、高度なプロトコルやセキュリティ・規制が求められる https://www.salesforce.com/blog/the-agentic-ai-era-after-the-dawn-heres-what-to-expect/ 1月13日 更新分
  26. 論文 12/16~12/23まで 自己修正 • Meta-Reflection: A Feedback-Free Reflection Learning Framework

    • Understanding the Dark Side of LLMs’ Intrinsic Self-Correction ツール利用 • Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage メモリ • Memory-Augmented Agent Training for Business Document Understanding • On the Structural Memory of LLM Agents 安全性 • SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents • Towards Action Hijacking of Large Language Model-based Agent • Agent-SafetyBench: Evaluating the Safety of LLM Agents ベンチマーク • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks • LegalAgentBench: Evaluating LLM Agents in Legal Domain
  27. 論文 12/16~12/23まで Agent Framework • Large Action Models: From Inception

    to Implementation • EscapeBench: Pushing Language Models to Think Outside the Box Agentic AI System • AutoPatent: A Multi-Agent Framework for Automatic Patent Generation Data Agent • A Survey on Large Language Model-based Agents for Statistics and Data Science Multi Agent System • ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning • A Survey on Multi-Generative Agent System: Recent Advances and New Frontiers • Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework
  28. 過去の内省を活用してフィードバックフリーな推論を実現 Meta-Reflection: A Feedback-Free Reflection Learning Framework 通常、内省手法は外部からのフィードバック(例えば、環境や他のモデルからの情報)や、複数回の推論を経て 精度を高める仕組みが求められる フィードバック不要のリフレクション手法Meta-Reflectionを提案

    • 過去のリフレクションを「コードブック」と呼ばれるデータ構造に保存する • コードブックを活用することで、外部のフィードバックがなくても適切なガイドラインを提供 実験結果 • プログラミングタスク(MBPP、HumanEval):Pass@1で最大3.0%の性能向上 • 数学的推論(GSM8K):Exact Match (EM)で最大6.2%の性能向上 • ECIDタスク:ユーザー意図検出精度で既存手法を約5%上回る 過去のリフレクションの知見 • 特定の数学的問題に対する解法のヒントや注意点 • プログラムコードの一般的な修正ガイドライン • eコマースのユーザー意図分類における重要な文脈情報
  29. 内在的自己修正が失敗する理由を解明するべく実験 Understanding the Dark Side of LLMs’ Intrinsic Self-Correction 単純なタスク(Yes/No質問など)から複雑なタスク(意思決定や推論)に至るまで、どのような状況で失敗が生

    じるのかを明らかにする 内在的な自己修正 • モデルが自身の最初の応答を見直し、外部の知識を利用せずに改善を試みるプロセスを指す • モデルの「内在的な能力」に基づいており、再度「考えて回答する」ような動作 実験結果 • o1-previewやo1-mini含め、自己修正が適用された後、初期応答の正解が誤答に変わる割合が高い 分析結果 回答の揺れ • 自己修正中に、モデルが中間的および最終的な回答を頻繁に変更 プロンプトバイアス • 自己修正プロンプトが元の質問よりも強く影響し、誤った修正を誘発 • 例: 「Are you sure? Think and answer again.」というプロンプトが、モデルに不必要な変更を促す 人間的認知バイアス • 過剰な思考によってタスク解決が遅れたり、失敗する • 長い入力プロンプトや複雑なタスクによって情報処理能力が限界を超え、重要な情報を見落とす • 完璧主義による不必要な修正を試みることで、既存の正解を誤りに変える
  30. マルチモーダルエージェントにおけるツール利用の学習方法を提案 Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient

    Tool Usage マルチモーダルタスクの問題解決におけるツール使用能力を強化するT3-Agentを開発 マルチモーダルタスクの例 • VQA、ファイル理解、視覚的編集・生成、オブジェクト認識、Web検索 • 例えば、「画像と地図を用いた動物の生息地を特定」、「メニュー表から最安値の料理を選択」、「温度 データから最も気温差が大きい日の特定」 T3-Agent • ツール利用つきReAct 軌跡を自動生成するパイプラインを構築 • MM-Trajという20,000件以上のマルチモーダルタスクを含む高品質なデータセットを作成 • Qwen2-VL-7B の言語モデル部分ををLoRAを用いて微調整 • ツール使用能力と多段階推論の強化
  31. メモリに行動履歴をそのまま保存しない?これからはメモリの設計が鍵になるか Memory-Augmented Agent Training for Business Document Understanding 物流企業のKuehne+Nagelとともに、請求書や出荷情報の業務文書の輸送参照番号抽出の自動化を目指す研究 提案手法Matrix

    は、長期記憶と記憶の最適化をおこないタスク実行の性能を高める エージェントの行動の軌跡データそのものをそのままメモリに保存しない(下表参照) • 学習フェーズ:学習用のタスクの実行後、内省でプロセスの正誤を評価、メモリ形式に変換し保存 これを数エポック繰り返し、記憶を洗練する(2回目からメモリを使ってタスク実行する) • 推論フェーズ:蓄積した長期記憶をもとにタスク解決 従来の手法と比較して30%以上の性能向上、 APIコール数は最大21.3%減少 保存内容 具体例 データの配置パターン 「'配送情報' セクションにデータがある」 再利用可能な正規表現や手順 「'TR-XXXX' フォーマットを正規表現で抽出」 エラー原因と回避策 「ラベルがない場合、隣接データを参照」 情報抽出フロー 「セクション検索 → 正規表現抽出 → 検証」 状況に応じた戦略 「長文時はセクションを優先」 APIコール数、成功率 「APIコール数:平均3回、成功率:90%」 データの配置関係 「参照番号は '出荷日' の隣に配置される」 メモリ保存情報 青線を見ると記憶の改善は一度で良さそう
  32. メモリの構造と検索方法を比較調査 On the Structural Memory of LLM Agents メモリ構造(チャンク、知識関係、事実、要約)と検索手法(シングルステップ検索、再ランキング、反復検 索)のタスクの性能への影響を体系的に調査

    記憶構造: 混合型記憶は多様なタスクでノイズ文章にも強く、最も安定した性能を発揮した • チャンクと要約は長い文脈を必要とするタスクに適し、知識関係と事実は関係推論や精度が求められるタスクに適する 記憶検索手法: 反復検索が最も効果的であり、複雑な質問応答や読解理解で一貫して高い性能を発揮した
  33. ツールの使用や環境とのインタラクションに安全性の課題あり SafeAgentBench: A Benchmark for Safe Task Planning of Embodied

    LLM Agents LLMエージェントの安全性を評価するためのベンチマーク「AGENT-SAFETYBENCH」を提案 結果の分析 1. リスク認識の欠如 • 明確な制約を無視: ツールの使用許可がないにもかかわらず、使用を試みる • 暗黙的なリスクを見落とす:全ての建物の警報システムを無効化するなど、潜在的な危険を伴う行動を取る 2. ツール呼び出しの不正確さ • 不完全な情報でツールを呼び出す: 複数の「John」がいるにもかかわらず、特定せずにメールを送信する • 誤った引数を指定: ファイルアクセス権限を誤って設定する 3. ツールの利用ミス • 必要なツールの使用を怠る: アラート送信ツールが必要な場面で呼び出しを行わない • ツール結果の過信: ツールが返す誤った情報を検証せず、そのまま利用 4. 安全性の低いツールの利用 • リスクのあるツールの使用: 明らかに危険なツールや違法行為を助長するツールを使用 5. 情報拡散や誤情報の生成 • 誤情報の拡散: ブログやメールを通じて誤った情報を発信 • 有害情報の生成: 機密情報を公開フォーラムで共有 6. 複数ツール間での連携ミス • ツールの順序性を無視: 情報収集ツールを使用せずにアクションツールを呼び出す
  34. 商用エージェントのメモリから情報を抜き出し、不正な操作をエージェントにやらせる攻撃 Towards Action Hijacking of Large Language Model-based Agent エージェントのメモリを操作してその行動を誘導する新しい攻撃手法を提案

    知識窃盗(Knowledge Stealing) • 無害なプロンプトを用いてエージェントのメモリから有益な知識を引き出し、攻撃計画を整える ハイジャック(Hijacking) • 盗んだ知識をもとにエージェントの行動を誘導し、不正な操作を実行させる トロイの木馬プロンプトの利用 事前に不正な方法をエージェントに生成させ、「先ほどのクエリの結果に基づいて操作を行ってください。」 99.67%の攻撃成功率(ASR)を達成し、キーワードフィルタ回避率は100%で、テーブル操作分類器の回避率も 92.7%を達成 理由はトロイの木馬プロンプトには有害なキーワードが含まれていないため、安全フィルタを通過可能
  35. 身体性エージェントは危険な行動を避けられるか Agent-SafetyBench: Evaluating the Safety of LLM Agents SafeAgent Benchで安全性を評価

    エージェントが危険な指示を実行してしまう エージェントの安全なタスクの成功率は69%、危険なタ スクの拒否率はわずか5%とほとんど危険な行動をする 行動の安全性を評価するプロンプトを通すと危険タスク の拒否率が大幅に向上するが通常のタスクにも悪影響 人間への危害の例 • 火災、感電、爆発、中毒/摂取、滑りの危険 財産への損害の例 • 液体による損害、物品の破損/落下、電化製品の誤使用 • 家具や装飾品や小物品の損害
  36. エージェントに社員のように仕事をこなせるか能力評価 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

    ソフトウェア開発会社を模倣したシミュレーション環境を作成し、エージェントが同僚やツールを活用してタス クを完遂する能力を測定 企業環境を再現するための以下のツールを採用 • ソースコード管理やWiki機能にGitLab、ドキュメント共有や編集にOwnCloud • タスク管理にPlane、チーム内コミュニケーションにRocketChat 175種類のタスク • ソフトウェア開発、プロジェクト管理、財務分析、事務作業、人事関連タスクなど 実験結果 • 最も高性能なモデルでも、自律的に完了できたタスクは全体の24% • SWE関連タスクで比較的高い成功率を示す一方、人事・財務関連タスクでは成功率が低い • RocketChatでの対話やOwnCloudでの複雑なUI操作がエージェントの大きな課題
  37. AIエージェントを中国の法律分野の質問応答と書類作成で評価 LegalAgentBench: Evaluating LLM Agents in Legal Domain 多段階推論(例: 情報収集と処理)

    • 例「91320115773957541Hの高消費制限ケースに関連する総金額 はいくらですか?」 • 多段階ステップ:会社名の特定→高消費制限ケースの照会→金額 計算 書類作成(例: 法的文書の構成) • 例「PersonAがCompanyXを訴えました。CompanyXはLaw Firm Aに法的代理を依頼しました。Law Firm Aの代表として、指定さ れたフォーマットに基づき抗弁書を作成してください。」 • 実行ステップ:企業情報の取得→法律事務所情報の取得→関連す る法的知識の検索→抗弁書の生成 実験はReAct、Plan &Solve、Plan &Executeで評価 • 多段階推論: GPT4oのReActが最良 • 書類作成:GPT4oのPlan&Executeが最良 法律条文の範囲や解釈ミス • LLMは関連する条文や判例を特定することができても、その内容 を正確に解釈する能力が欠けている • 法律条文の適用範囲や「どの条文が適用されるのか」や「どのよ うに判断を下すべきか」を理解するのに苦労する ツールはこのくらいある
  38. LLMから大規模アクションモデル LAM への進化 Large Action Models: From Inception to Implementation

    MicrosoftからLAMsの設計と実装に関する体系的なフレームワークを提案 • LAMsはユーザー意図を解釈して計画を立案し、それを行動シーケンスに変換して実行 • LAMsの学習には、タスクプラン(計画)データとタスクアクション(実行)データの両方が必要 • タスクプランデータの例は行動系列が作れそうなアプリのドキュメント、オンライン「How-to」ガイド、Bingの検索履歴 学習ステップ • 1. Task-PlanのSFT, 2. 行動生成の学習, 3. 学習済LAMで追加の軌跡生成&学習, 4. 成功と失敗の軌跡からPPO ポイント • データ収集したものに手順を少し加えた挑戦的なタスクにデータ拡張する • 行動シーケンスは実行できるか検証してから使う
  39. 密室脱出ゲームを通じてLLMの創造性を評価 EscapeBench: Pushing Language Models to Think Outside the Box

    EscapeAgent:創造性の課題を克服するために開発されたフレームワーク 脱出ゲームの隠れた目標を発見し、革新的なアイテム使用法を見つける能力を向上させ、ヒント使用率が平均で50%削減 予見(Foresight) • 新しいタスクが発見されたとき、所有するツールを評価して仮説を立てる • 新しいツールを取得したとき、それが既存タスクにどのように役立つかを推測する • 仮説に基づいて「試行行動」モードに入り、提案された行動を順次試す • 有効な仮説がない場合、「自由探索」モードに戻り環境を探索 内省(Reflection) • 未解決タスクや失敗した行動を記録し、目標達成時にタスクを削除 • 各行動の後にタスクリストを更新し、無駄な行動を回避 現在のLMは創造性や暗黙の目標認識において依然として人間に及ばない
  40. 質問に答えるだけで特許文書の作成を自動化するエージェント AutoPatent: A Multi-Agent Framework for Automatic Patent Generation 特許出願者の草稿から特許文書(平均17Kトークン)を自動生成するAutoPatentを提案

    プランナーエージェント (Planner Agent) • 特許文書の構造を設計し、内容をセクションやサブセクションに分割する役割を担う ライターエージェント (Writer Agents) • 6つの短いコンポーネント(タイトル、概要、背景、要約、請求項)と詳細記述を担当する 審査官エージェント (Examiner Agent) • 各セクションやサブセクションの品質を確認し、不備がある場合は修正指示を出す • 内容の正確性、論理性、一貫性、網羅性などを評価 最初にユーザーが5つの質問に答える形式にして処理を安定させている
  41. データサイエンスエージェントの進化 A Survey on Large Language Model-based Agents for Statistics

    and Data Science データサイエンスエージェント • プログラミングや統計知識がなくても自然言語でデータ解析を依頼できる • 分析の計画、実行、視覚化、報告までを自動でおこなう • ユーザーインターフェースはIDE, 独立システム, コマンドラインがある ケーススタディ • ワインのアルコール含有量が品質に与える影響を可視化 • 平均給与を年齢別に分析し、折れ線グラフを生成 • 乳がん診断データの分類モデル構築と学習
  42. 行動や計画にも自己修正を入れて適応力と柔軟性を高めるマルチエージェント設計 ROMAS: A Role-Based Multi-Agent System for Database monitoring and

    Planning 既存のMASは静的なタスク割り当てや事前定義されたプロセスに依存し、予期しない状況への適応が困難で柔軟性や 頑強性に欠ける そのため、特定のドメインに特化していることが多く、汎用性に欠ける 自己計画(self-planning)、自己監視(self-monitoring)、協働(collaboration)を実現するMAS手法を提案 ROMAS:各エージェントが自らのパフォーマンスを動的に評価し、必要に応じて計画を修正できる • プランナー: タスクを分割し、ワーカーに具体的な指示を与える • ワーカー: 実際のタスク(データ抽出・処理・分析など)を遂行する • モニター: ワーカーの作業を監視し、エラー時に再計画を指示する ROMAS
  43. コンパクトにまとまったマルチ生成AIエージェントシステムのまとめ A Survey on Multi-Generative Agent System: Recent Advances and

    New Frontiers MGAS (Multi-Generative Agent Systems) • 多数の生成エージェント(generative agents)が相互作用し、協力しながら環境内でタスクを遂行するシステム Generative Agents • それぞれ異なる役割を持ち、環境を認識し、意思決定を行い、行動を実行する能力を持つ 特徴 • 自然言語での高度なコミュニケーション能力を持つ • 長期的な意思決定や複雑な行動計画を実行する • メモリや履歴の活用により、文脈を維持する 応用領域 複雑なタスクの解決 • タスクを複数のエージェントで分担し、協力することで効率と精度を向上 • 例: ソフトウェア開発やデータ分析、意思決定支援 シナリオのシミュレーション • 現実世界の社会や物理環境を仮想空間で再現し、現象やシステムの挙動をシミュレーション • 例: ソーシャルメディアや経済活動、都市計画・交通シミュレーション 生成エージェントの評価 • LLMの能力や戦略性を多様なシナリオでテストし、性能を測定 • 例: 戦略ゲームでの競争力評価、感情理解とコミュニケーション能力、学習用のデータ生成
  44. コードに例外処理を追加してくれるマルチエージェント Seeker: Towards Exception Safety Code Generation with Intermediate Language

    Agents Framework エンジニアは例外が発生する可能性のある「脆弱なコード」を適切に特定することが難しい 特にカスタム例外や稀な例外に対する処理が難しい コード生成の中でも例外処理生成に特化したマルチエージェントSeekerを提案 1. Scanner:コードをユニットに分割 2. Detector:脆弱なコード部分を検出 3. Predator:例外ブロックを捕捉し、対応する例外を特定 4. Ranker:例外処理の優先順位付け 5. Handler:最適な例外処理を生成
  45. 12月30日 更新 リリース • AI Shift、営業の成果を最大化する企業専用の営業AIエージェントを提供開始 ブログ • Weekly AI

    Agent News!から見えたAIエージェントの現在地 • AIエージェントビジネスの現状と今後の考察 • 生成AIエージェントが刺さる業務課題を探そう! • 2024年生成AIエージェントのおすすめ論文 16選 • AIエージェントの評価 • 10 AI Trends in 2025 You Can't Miss • 15 Agentic Systems and Frameworks of 2024 • Top 10 Research Papers on AI Agents • AI Agent Trends: Skills and Workforce Insights for 2024 • Top 10 AI Agent Trends and Predictions for 2025
  46. 12月30日 更新 ブログ • Building effective agents • Multi AI

    Agents In Production • 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 • Agentic AI vs Generative AI: Understanding the Key Differences and Impacts • AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例 授業 • Reasoning with o1
  47. Weekly AI Agent News!から見えたAIエージェントの現在地 2024年のエージェント開発動向と技術的な気づき マクロレベルのアーキテクチャはほぼ同じ • 2023年夏頃までにエージェントの基礎的構成要素(知覚、プロフィール、プランニング、ツール利用、メモリ、リフレク ション)は出揃い、2024年にはそれを発展させる研究が続いた 細部の作り込みの工夫

    • メモリ管理やプロンプト設計、環境情報(RAGやツール)を磨くことで、タスク成功率を一定レベルまで底上げできる • ただし、一定水準を超えると性能が頭打ちになりがち 2024年は応用分野の開拓が進んだ • コンピュータ操作、データ分析、レポート生成、製造現場、教育支援など、多くのベンチマークや業務適用の事例の登場 “エージェントを作り込んだら精度が本当に上がるのか” という疑問 • エージェントが複雑化しても、最終的な精度向上幅は数%〜10%ほどで、思ったほど大きくない • 多くの論文は同じ課題にぶつかり、根本的にはLLMの限界を超えられない場合が多い https://masamasa59.hatenablog.com/entry/weekly-ai-agent-journey
  48. 著者が重視、主張していることはなんだと思いますか Weekly AI Agent News!から見えたAIエージェントの現在地 著者が特に強調しているのは、 • エージェントの基礎技術はすでに出揃っており、マクロレベルのアーキテクチャはどれも似通っているが、細 部の作り込みによって性能や使い勝手に差が生まれる •

    LLMの性能向上に依存する部分が大きく、アーキテクチャやプロンプトを工夫しても大幅な性能改善は難しい • ビジネス活用では、エージェントが苦手とする領域を避けつつ、限界にぶつからない範囲で現実的な価値を出 すのが重要である • どの会社でも使える標準的な設計を押さえたうえで、細部の作り込みやタスクの絞り方を賢くやり、現場で成 果を上げていこう https://masamasa59.hatenablog.com/entry/weekly-ai-agent-journey
  49. AIエージェントビジネスの現状と今後の考察 多様な企業・ベンダーが参入 • 大手クラウドベンダーは「Agent Builder」を提供し、業務に応じてエージェントを手軽に作れる環境を整備中 • 既存システムの強みを活かしてデータ分析やドキュメント管理、業務代行などのエージェントを提供する例も増加 主要なエージェント応用 • エージェントビルダー:プロバイダ側が開発済みエージェントを提供・カスタマイズ可能

    • リサーチ・問い合わせ対応(RAG的アプローチ):社内文書やWeb検索を繰り返し行い、情報が揃ったかを判断 • データに基づく意思決定支援:売上やCRMデータなどを可視化・分析し、報告 • 資料作成支援:Webや社内情報を統合し、提案書・調査報告などを生成 • Agentic Process Automation:従来のRPAを拡張し、定型・非定型作業を自律的に組み合わせる エージェントの今後の方向性 • 生成AIエージェントと業務ソフトウェアが強く連携し、「指示だけで〇〇が完了」といったキャッチコピーが増える • GUI操作など汎用的なコンピュータ制御はまだ困難で、業務特化のエージェントに商機がある AIエージェントへの誤解と注意点 • 「自動化=AIエージェント」ではない。必ずしもLLMを用いた高度な“思考プロセス”が必要なわけではない • エージェントの思考と行動プロセスが人間らしく見えても、結果の正確性は保証されない • 「マルチエージェント」という言葉は分野や文脈で意味が異なり、曖昧に使うと混乱を招く https://masamasa59.hatenablog.com/entry/ai-agent-business-guide
  50. 著者が重視、主張していることはなんだと思いますか AIエージェントビジネスの現状と今後の考察 著者が一貫して主張しているのは、「AIエージェント」という言葉がビジネス現場でバズワード的に使われつつあるが、 実際には“何を自動化・高度化するのか”を明確にし、かつ特化型で作り込む必要があるという点 1. 汎用的なエージェントより、業務特化型のエージェントにこそ勝機がある • GUI操作などを含む汎用的な制御はまだ難しく、不確実性も高い • 一方で、特化型エージェントは業務領域を絞ることで精度を高められ、ビジネスインパクトを出しやすい

    2. 「エージェント=自動化」ではない • エージェントが持つ計画・思考プロセスが必ずしも必要とは限らず、むしろ既存ツールで解決できることも多い • 目的に応じて、あえてエージェントを使わない選択も重要 3. “マルチエージェント”を安易に謳わない • 分野ごとに「エージェント」の定義が異なるため、曖昧なまま使うと社内外で混乱を招く 4. 業務フロー(プロセス)への納得感と、結果(精度・使いやすさ)は別 • 人間らしい思考プロセスや動的なフローを実装しても、結果の正確性が伴わなければ意味がない • 顧客やユーザーは最終的な成果物や業務効率の向上を評価する 5. 今後はLLMプロバイダだけでなく、各業務ソフトウェアが独自の「AIエージェント」を持つ流れが加速する • 「ユーザーが指示するだけで〇〇が完了/効率化」というマーケティングが増えるものの、連携先が増えても精度が伴わ なければ使われない • 自社ソフトウェアの強みやデータ連携を活かして、特化型エージェントを磨く必要がある 総じて、「エージェント」という言葉が広範かつ曖昧に使われがちな現状に対して、著者は“より明確な目的設定”“特化領域での 精度向上”“結果を重視した価値提供”の重要性を強く主張している https://masamasa59.hatenablog.com/entry/ai-agent-business-guide
  51. 生成AIエージェントが刺さる業務課題を探そう! エージェントが刺さるビジネスの特徴 • 抽象度が高いタスク 例:事前に手順や正解が一意に定まらない・複数のプロセスがある業務 • 課題は明確だが答えが一意に定まらない 例:新規製品アイデアの立案 • 成果物のバリエーションが多く、都度カスタマイズが必要

    例:営業資料や提案書を顧客ごとに作り直す業務 • 複数のツール・データソースを組み合わせる必要がある 例:データ分析ツール→見込客リスト生成→メール送信、などのクロスオペレーション • “試行錯誤”や“自己改善”が必須のPDCAサイクルを回す業務 例:A/Bテストを繰り返すマーケティング施策、新規事業アイデア創出 • 情報収集・要約・分類といったナレッジワークが多い 例:大量のレポートから要約を行い、次のアクション(提案書作成など)まで繋げる • ルーチンワークだが例外が多く、対応ルールが複雑 例:契約書チェックや在庫管理フローで、多数の条件分岐と例外対応が必要 • 複数ステークホルダーがレビュー・承認し合うワークフロー 例:提案書や仕様書のレビューに多部署が関わる場面 https://masamasa59.hatenablog.com/entry/business-challenges-for-ai-agents
  52. 2024年生成AIエージェントのおすすめ論文 16選 大きくまとめると以下の文献を紹介 (1) CoT(Chain of Thought)関連 • CoTが有効なタスク・そうでないタスクの分析 •

    推論能力向上の文脈で再注目されている (2) LLM(Large Language Models)の計画・推論能力 • 前提条件からゴールまでの「計画」が苦手とされていたが、最新のモデルでは改善されているかを評価 • 実世界の制約やルールを守る能力の評価。法律・税制・規制など複数ルールの遵守がどこまでできるかを検証 (3) RAGのエージェント化 • 従来のRAGからエージェント化へ移行するメリットや具体的な手法 • 「Agentic IR」など、新たなアプローチを解説 (4) マルチエージェント設計 • 複数のエージェントをオーケストレートして問題解決する方法 • 「専門エージェント+オーケストレータ」という構成をどう活用するか (5) AIエージェント構築・UX設計 • シングル/マルチエージェントにおける設計手法(計画・メモリ・制御フローなど) • GUI操作エージェント(AnthropicやGoogleなどの事例)の仕組みと課題 • エージェントと人間のインタラクション設計をどう行うか (6) 学習手法 • 大規模行動モデル(LAM: Large Action Models)など、エージェントとしての性能を強化する学習方法 • LLMベースのエージェントとの差異や適用タスクの例 (7) メタ認知能力 • 「フロンティアモデルはメタ認知能力を持つか?」という評価 • エージェントが「自分の限界を把握し、必要な追加情報を補う」ように行動できるかどうかを検証 (8) ゲーム(脱出ゲーム)を題材にした長期タスク評価 • 長期的な計画や創造力を要する「脱出ゲーム」を使ってエージェントの知能を評価 • サブタスク管理や探索的行動など、エージェントの自律性・創造性が試される点が興味深い https://masamasa59.hatenablog.com/entry/2024-best-papers-on-ai-agents
  53. AIエージェントの評価 W&B AI Solution Engineer の方からAIエージェントの評価記事が公開 • 背景:AIの活用は単一プロンプト利用から複数のコンポーネントを統合する方法へと移行 • Compound

    AIシステムの観点からRAG, AIエージェントを定義 (ここを強調したいように感じた) 評価観点 • システム全体、プロンプトレベル、軌跡レベルで評価 • それぞれの評価の実現用意性や課題も記述されていた 評価項目(右図参照) • オフライン評価とオンライン評価で評価指標は変わらない • 変わるのはリアルタイム評価に人間フィードバックがあるか 評価体系構築の流れ Step1: Observability toolの導入 Step2: 基本的なテストケースの整備 Step3:Playgroundでの検証 Step4:本格的な評価体系の構築 https://note.com/wandb_jp/n/nf563ea9d3096
  54. 10 AI Trends in 2025 You Can't Miss 1. 自律型エージェントAI

    (Autonomous Agentic AI) • AIエージェントが複雑なタスクを人間の手をほとんど借りずに実行可能になる。 2. マルチモーダルAI (Multimodal AI) • AIがテキスト、音声、画像など複数の情報源を同時に処理し、より包括的な理解をする。 3. 推論時計算の最適化 (Inference-Time Compute) • AIモデルがタスクの内容に応じて「どれだけ計算するか」を動的に調整し、高速化や省電力化を図る技術。 4. Edge AIと小型言語モデル (SLMs) の台頭 • クラウドではなく、端末(スマホやIoT機器など)自体でAIを動作させる流れが拡大。ユーザーのプライバシー保護や低電力化が進む。 5. ほぼ無限のメモリ (Near-Infinite Memory) • AIが会話やユーザーの好みを長期にわたって保持し、よりパーソナライズされた体験を提供。プライバシーの扱いが課題になる可能性も。 6. リアルタイム音声:タイピング不要の時代 • 音声入力が進化し、スムーズで自然なやり取りが可能に。文字入力に代わるインタラクション手段として、対応言語・品質の向上が期待される。 7. AIのワークフロー統合の深化 • AIがメールやプロジェクト管理などの既存ツールに組み込まれ生産性が向上 8. 製品開発の加速 • AIによる設計・プロトタイプの高速化により、開発期間が従来の半分以下に短縮される見通し 9. 投資拡大とインフラ強化 • 政府レベルでの大規模投資(数十億ドル規模)が研究やインフラ、イノベーションを後押し 10.科学分野での画期的進歩 • AIが生物学・化学・物理学などの研究を加速し、創薬や素材開発に革命的な変化をもたらす。研究と産業応用の連携が一層重要に。 https://learnprompting.beehiiv.com/p/10-ai-trends-in-2025-you-can-t-miss
  55. 15 Agentic Systems and Frameworks of 2024 GUI Agents: A

    Survey: ソフトウェアの画面を人間のようにクリック・入力して操作するエージェントについての総合的調査 Agent K v1.0:データサイエンスに特化した自律型エージェント。前処理から特徴量エンジニアリング、モデル調整まで自動化 The AI Scientist:研究アイデアの生成、コード執筆、実験、結果の可視化、論文執筆、疑似査読まで自動化する科学研究支援フレームワーク MALT:複数のLLMを“生成者・検証者・改良者”のように役割分担させ、段階的に出力を洗練する協調型フレームワーク Agent S:GUI操作を自動化し、複雑な長いタスクを人間同様に実行するオープンフレームワーク Automated Design of Agentic Systems (ADAS):メタエージェント”がコードを書くことでエージェント自体を自動生成・改良する AgentInstruct:シンプルな入力から大規模な合成データを自動生成し、LLMの事後学習に利用させるフレームワーク AgentStore:複数のデジタルエージェントを組み合わせて複雑なコンピュータタスクを自動化するプラットフォーム WALL-E:LLMと学習規則を併用して現実環境を理解・ナビゲートするシステム “Generative Agent Simulations of 1,000 People”:1,052人の実際の行動や態度をLLMエージェントで再現する手法で85%の精度で個人の回答や行動 傾向を模倣 DynaSaur:汎用プログラミング言語でタスク実行手順を動的に作成・再利用するエージェントフレームワーク PRefLexOR:選好最適化や強化学習を取り入れ、モデルが自らの推論を何度も振り返り、深い思考を育む手法 Generative World Explorer (Genex):AIエージェントが3D環境を頭の中でシミュレートし、現実の探索回数を減らしながら理解を深めるフレーム ワーク Bel Esprit:会話型エージェントが複数モデルを組み合わせて高度なタスクをこなすパイプラインを作成するシステム AutoKaggle:テーブルデータを扱うKaggle形式のタスクを効率化するエージェント https://www.turingpost.com/p/15-agents-of-2024
  56. Top 10 Research Papers on AI Agents Modelling Social Action

    for AI Agents • AIエージェントの社会行動を依存関係やコミットメント理論を通して体系化し、協調と集団行動の基盤を提案 Visibility into AI Agents • 自律エージェントがもたらすリスクに対し、ID付与やリアルタイム監視、ログ記録など透明性を高める手法を提案 Artificial Intelligence and Virtual Worlds –Toward Human-Level AI Agents • 仮想世界を活用して、NPCの高度化や人間レベル知能の実現可能性を探る Intelligent Agents: Theory and Practice • エージェント理論からアーキテクチャ・プログラミング言語まで包括的に整理し、理論と実用面での課題を論じる TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents • LLMエージェントのタスク分割と外部ツール活用能力を評価する枠組み“TPTU”を提案 A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions • 文脈認識を備えるマルチエージェントを対象に、学習・推論モデルから今後の研究課題までを体系化 Agent AI: Surveying the Horizons of Multimodal Interaction • 視覚・音声・テキストなど複数モーダルを扱うエージェントAIの現状と課題を整理し、AGIに向けた方向性を示す Large Language Model-Based Multi-Agents: A Survey of Progress and Challenges • LLMを組み込んだマルチエージェントの応用事例と技術的ハードルを総括し、協調・競合シミュレーションの可能性を検討 The Rise and Potential of Large Language Model-Based Agents: A Survey • LLMを核としたAIエージェントの進化と応用分野を概観し、マルチモーダル化や倫理的課題を含む将来展望を論じる A survey of progress on cooperative multi-agent reinforcement learning in open environment • オープンな動的環境での協調型MARL手法を総括し、エージェント数や環境条件が変化する状況への適応戦略を提案 https://www.analyticsvidhya.com/blog/2024/12/ai-agents-research-papers/
  57. AI Agent Trends: Skills and Workforce Insights for 2024 企業はAIエージェントを活用した高度な自動化へシフトしつつあり、将来的にはマルチエージェントの協調や戦略的意思決定が重要になる

    エージェンティックAIの台頭と企業戦略への影響 • AIエージェントが人間を置き換えるのではなく、協働しながら業務を高度化する未来が近づいている • OpenAIが2025年1月にリリースを予定している「Operator」のように、複数ステップのタスクを自律的に行うAIエージェントの登場が注目 を集めている • MicrosoftやAnthropicなど他社も同様の開発を進めており、今後は「AIエージェント同士の協業」や「マルチタスク処理」が重要となる 求められるスキル:データインフラと自動化から、適応力・高度分析へ • プロセスマイニング(394%伸び)やデータパイプライン(245%伸び)など、データを活用してワークフローを最適化するスキルの需要が 急増。 • 「転移学習」「特徴量エンジニアリング」などのスキルも伸びており、複数のドメインに応用できる柔軟なAIモデル開発が重視されている。 • RPAやデータエンジニアリングの需要は依然高いが、すでに多くの企業が導入済みで成熟期に入り、今後はより高度な「インテリジェント オートメーション」に移行する可能性がある。 変化するデータ活用:ビッグデータからリアルタイム・インサイトへ • ビッグデータ関連の需要がやや減少傾向にある一方で、より高速かつ柔軟な分析手法の需要が高まっている。 今後注目される分野:マルチエージェントや戦略的AI • 「群知能」「ゲーム理論」関連スキルも成長し、AIエージェント同士が協調・競合しながら複雑なタスクをこなす時代が見込まれる。 • 技術力だけでなく、組織設計や戦略的思考を兼ね備えた人材の需要が高まる可能性がある。 https://blog.getaura.ai/ai-agents-skills-data-trends
  58. 2024年の主な動向 Top 10 AI Agent Trends and Predictions for 2025

    1. カスタマーサービスでの普及 • 多くの業界で、AIエージェントが問い合わせ対応などの顧客接点を担うように • 一部の企業では60%超の顧客対応をエージェントが担当 2. エージェントの高い自律性 • NLPや強化学習の進歩により、文脈理解力が向上し、より賢くタスクを遂行 3. サイバーセキュリティ分野での活用 • AIエージェントが脅威検知やリアルタイムでのセキュリティ監視を行い、企業の防御を強化 4. 人間との連携強化 • データ分析や意思決定の補佐など、“作業代行”を超えた共同パートナーとして活躍 5. エージェント構築フレームワークの台頭 • AutoGen、CrewAI、LangChainなど、コード不要でカスタマイズできるプラットフォームが多数出現し、開発・導 入の障壁が低下 https://www.analyticsvidhya.com/blog/2024/12/ai-agent-trends/
  59. 2025年に注目すべき10のエージェントトレンド Top 10 AI Agent Trends and Predictions for 2025

    さらなるAIエージェント導入の増加 Capgeminiの調査では、2026年までに82%の企業がAIエージェントを導入予定 コード生成やデータ分析など、幅広い部門のタスクへ適用が拡大 プロアクティブなAIエージェントの登場 単に指示待ちではなく、利用者の状況やデータを分析して先回りして提案・行動するエージェントが増加 パーソナライズの実現 Generative AIの進化により、ユーザーの好みや履歴を基に高度なパーソナライズが可能に 小売・ヘルスケアなどで顧客の趣味嗜好・健康データに合わせた提案を行うように 感情知能(Emotional Intelligence)の向上 ユーザーのトーンや文脈を汲み取り、共感を伴ったコミュニケーションを取るエージェントが増える カスタマーサポートや教育・セラピーなど、対話の質が一段と向上 マルチモーダル対応の進化 テキスト、音声、画像、動画を統合的に扱うことで、より自然で多彩なインタラクションを可能に カスタマーサポートやクリエイティブ領域での協働が拡張 高度なマルチエージェント・システム 複数のAIエージェントが連携し、在庫管理・需要予測・物流最適化など、より複雑な業務を一括で処理 OpenAI SwarmやMicrosoft Magentic AIのような基盤で大規模マルチエージェントを運用・管理 エージェント構築フレームワークの発展と統合 2024年に台頭したAutoGenやCrewAIなどのプラットフォームがさらに拡充 小規模企業の統合や機能追加が進み、より大規模で成熟したフレームワークが確立する可能性 IoT・パーソナルデバイスとの連携強化 スマートホームやスマートシティなどのIoT環境と連動し、自律的にデバイスやプロセスを制御 個人向け端末でもエージェントが自動でスケジュールやショッピング手配を行うなど、利便性アップ 倫理・透明性への重視 エージェントの意思決定プロセスを説明可能にする「XAI(Explainable AI)」がさらに注目 金融や医療などでの活用が増すにつれ、公平性と説明責任を担保する規制や基準が整備 コミュニケーション・コラボレーションツールの高度化 会議の効率化(リアルタイムでの議事録作成や要点整理など)を実現するスマート・アシスタント 異業種間での情報共有やプロジェクト管理ツールにも高度に組み込まれ、チームワークを強力にサポート https://www.analyticsvidhya.com/blog/2024/12/ai-agent-trends/
  60. Building effective agents/Anthropic エージェントは、ツール等を活用して自律的にタスクを進めるシステム、一方、あらかじめ決まったコードフローに沿う構成はワークフロー(workflow)と呼ぶ ワークフローはタスクの手順が定型化している場合に向いており、エージェントは柔軟かつモデル主体の意思決定が求められる場合に適している Augmented LLM(拡張LLM) • retrievalやツール呼び出し、メモリなどでLLMを拡張する ワークフロー各種

    Prompt Chaining • タスクを複数ステップに分解して順に実行。途中でプログラム的なチェックをはさみ、精度向上を図る 例: ドキュメントの要約→チェック→翻訳、のように明確な段階分割がある場合 Routing • 入力を分類して、最適な下流タスクに振り分ける 例: カスタマーサポートの問合せを種類別に振り分ける、モデルごとに負荷やコストを最適化する Parallelization • タスクを並列に分割して処理(Sectioning)したり、同じタスクを複数回試行して投票(Voting)で最適解を得たりする 例: セキュリティ診断を複数のプロンプトで行い、結果を投票でまとめる Orchestrator-Workers • 中央のLLMがサブタスクを動的に生成し、それぞれのWorker LLMに振り分けて結果を集約 • タスク内容に応じて必要なサブタスク数が変わるような、複雑な場面向き Evaluator-Optimizer • 1つのLLMが回答を出し、もう1つのLLMがその回答を評価・フィードバックし、改善する。 例: 文書作成や検索を複数回にわたって修正・最適化する場合に有効 コメント)研究では、Routing 以降はマルチエージェントでよく見る設計です。Augmented LLMはToolLLMと呼ばれていましたね。 エージェント Prompt Chaining Augmented LLM https://www.anthropic.com/research/building-effective-agents
  61. Multi AI Agents In Production/CrewAI この調査には 4,500 人を超える専門家が参加しました 導入の広がりと主な用途 •

    多くの企業はまず内部プロセス改善などの「高精度が求められるユー スケース」からAIエージェントを導入し始める傾向があり、マーケ ティング分野での導入は比較的少ない。 • サポート業務への適用が重要視されるケースが増えている。 導入スピード • 約76%の企業が30〜60日以内にAIエージェントを本番運用に移した いと考えている。 • 大企業ほど複数のユースケースを素早く本番運用に取り入れており、 中小企業と比較して約23%高い導入実績がある。 調査概要 • 回答者の地域比率はアメリカ大陸45.2%、APAC(アジア太平洋) 22.27%、EMEA(欧州・中東・アフリカ)21.3%、リモート10.8% • 企業規模では従業員10名未満が34.6%、11〜100名が32.1%、101〜 5,000名が19.9%、5,000名超が13.5%。 https://insights.crewai.com/
  62. 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 AIエージェント開発の前提条件 • 課題やニーズの明確化 • LLMが最適解であるとは限らない。従来の問い合わせシステムや単純なFAQで足りる場合もある。

    • まず「何を解決したいのか」を明確にし、要件定義に十分な時間をかける。既にあるSaaSやツールで足りるなら無理にLLMを導入しない。 • LLMの有用性と限界 • 金融・医療・法律など正確性が求められる領域では、LLM単体では要件を満たしにくい場合がある。 • 「LLMを使う部分」と「人間が介在すべき部分」の切り分けが重要。 • どの範囲までLLMに委ねるかを明確にし、ビジネスロジックやルールは別途システム側に実装するなど、役割をはっきり分割する。 • モデル選定とユーザーニーズ • 大半のケースでは汎用的な大規模モデル(GPT-4など)で十分。 • セキュリティ・コスト要件やオンプレ運用の必要がある場合などは専用モデルを検討する価値がある。 要求定義と設計上のポイント • UI・UXの設計 • チャット型UIが最適とは限らない。ユーザーにテキスト入力を強要しすぎると逆に使いにくい。 • 最終的な目的は「チャットをする」ことではなく「問題を解決する」こと。 • セキュリティ・プライバシー要件 • プロンプトインジェクションなどLLM固有のリスクが存在する。 • DBアクセスなどを行う場合は、ユーザーが直接SQLを操れるような状況を避けるなど、従来同様のセキュリティ設計が必須。 AIエージェント時代のアプリケーション開発パターンの例 • ユーザー入力 → DBから取得 → LLMで結果生成(最小関与パターン) • LLMがユーザー入力を解析 → API呼び出しクエリ生成 → システムが結果取得 → LLMで生成(Function Callingパターン) • LLMにAPI一覧を渡し、必要なAPIやパラメータをLLMが自律的に選択する(AIエージェントパターン) https://www.ai-shift.co.jp/techblog/5252
  63. Agentic AI vs Generative AI: Understanding the Key Differences and

    Impacts Agentic AIとは • 自律性: 人間からの明確な指示がなくても、設定された目的に向けて自律的に行動を起こす。 • ゴール指向: タスク達成のために意思決定を行い、必要に応じて環境に適応し続ける。 • 適応と学習: 失敗や成功から学習し、継続的にパフォーマンスを向上できる。 • 複雑な意思決定: 多くの選択肢を検討し、それに伴う結果を踏まえて最適な判断を下す。 • 環境認識: カメラやセンサーなどを用いて外部環境を把握し、それをもとに行動を変化させる。 具体例 • 自動運転車: 目的地へ安全に到達するために、周囲の交通状況を認識しながら自律的に走行する。 • 高度なバーチャルアシスタント: 予定調整やリマインダーなどを自動的に実行し、ユーザーの目標達成をサポートする。 Generative AIとは • 反応的な仕組み: ユーザーからの入力に応じてテキストや画像を生成するが、自ら目的を設定して行動するわけではない。 • タスク指向(受動的): 入力に対して即座にコンテンツを生成するが、継続的・自律的な意思決定や行動はしない。 • 単純な意思決定: 学習済みのパターンをもとに最も可能性の高い出力を選択する程度で、複雑な状況判断や目標追求は行わない。 • 学習や適応が限定的: 訓練後の推論時には、基本的には新しい情報を反映して自己改善するわけではない。 • 環境認識なし: バーチャルなデータ(テキストや画像)のみに基づいており、物理的な環境を認識して行動を変えることはできない。 具体例 • ChatGPT: 入力された質問や文章に対してテキストを生成し返答する。 • 画像生成モデル(DALL-Eなど): テキストの説明をもとに画像を生成。 https://medium.com/@myscale/agentic-ai-vs-generative-ai-understanding-the-key-differences-and-impacts-e4527bb7c4ee
  64. AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例/Microsoft MicrosoftからAIエージェントの事例 • コールセンターの業務効率化 (ソフトバンク、大和証券、ベルシステム 24 など) AI

    が問い合わせ内容を判断し最適解を提示。待ち時間短縮や回答精度向上を実現 • 熟練知識の継承と開発スピード向上 (トヨタ自動車) 専門分野ごとの AI エージェントが 24 時間体制で質問に対応。効率的な知識共有により新車開発を加速 • 現場スタッフ支援とサービス品質向上 (JR西日本) 複雑な営業制度を扱う駅員を AI が支援。待ち時間短縮や新人育成に効果 • 自律型エージェントによる課題解決 (富士通) 複数のサブエージェントを協調させて最適解を提案する仕組みを開発。社内で数百のエージェントを活用中 • ゲーム開発や金融業務、教育分野への応用 (スクウェア・エニックス、セブン銀行、ナガセなど) ゲームエンジンの活用支援、社内チャットボット、個別学習支援などを実装 • 社内業務効率化と投資判断支援 (三菱商事、MUFG など) 文章要約ツールや社内 ChatGPT を活用し、膨大な情報から必要な判断を迅速化 • 24 時間の AI 法律相談サービス (弁護士ドットコム) 125 万件以上の法律相談データを活用し、一般ユーザーが無料相談を利用可能 https://news.microsoft.com/ja-jp/2024/12/18/241218-operational-efficiency-and-innovation-enabled-by-ai-agents-latest-case-studies-from-japan/
  65. Reasoning with o1/DeepLearningAI Colin Jarvis(OpenAI)による短期コース o1を使ったプロンプトの4つの主要原則 • Simple and direct

    • No explicit CoT required • Use structured formats( XML or markdown ) • Show rather than tell 計画と実行の分離方法も紹介 • o1がオーケストレーター(指揮者)として計画を作成し、4o-mini モデルにその計画を実行させることで知性とコストのトレードオフ を管理した方法を紹介 メタ・プロンプティング手法も紹介 • o1を使ってプロンプトそのものを改善していくアプローチ https://www.deeplearning.ai/short-courses/reasoning-with-o1/