Weekly AI Agents News! 12月号論文のアーカイブ

Weekly AI Agents News @ottamm_190 1２月号論文編

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 •
SpeakerDeckに過去の4月、5月、6月、７月、8月、9月、10月、11月の資料を分けて公開しています。 • 7月から隔週で更新します。

論文 12月プロフィール • CharacterBox: Evaluating the Role-Playing Capabilities of
LLMs in Text-Based Virtual Worlds • Simulating Human-like Daily Activities with Desire-driven Autonomy 推論 • MISR: Measuring Instrumental Self-Reasoning in Frontier Models • RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios 自己修正 • Meta-Reflection: A Feedback-Free Reflection Learning Framework • Understanding the Dark Side of LLMs’ Intrinsic Self-Correction ツール利用 • Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage メモリ • Memory-Augmented Agent Training for Business Document Understanding • On the Structural Memory of LLM Agents

論文 12月学習 • Training Agents with Weakly Supervised Feedback
from Large Language Models • MALT: Improving Reasoning with Multi-Agent LLM Training • Personalized Multimodal Large Language Models: A Survey 安全性 • SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents • Towards Action Hijacking of Large Language Model-based Agent • Agent-SafetyBench: Evaluating the Safety of LLM Agents ベンチマーク • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks • LegalAgentBench: Evaluating LLM Agents in Legal Domain Agent Framework • Large Action Models: From Inception to Implementation • EscapeBench: Pushing Language Models to Think Outside the Box • Practical Considerations for Agentic LLM Systems • Challenges in Human-Agent Communication • Specifications: The missing link to making the development of LLM systems an engineering discipline

論文 12月 Agentic AI System • AutoPatent: A Multi-Agent Framework
for Automatic Patent Generation • Hacking CTFs with Plain Agents • Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System Digital Agent • Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction • AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials • The BrowserGym Ecosystem for Web Agent Research • PAFFA: Premeditated Actions For Fast Agents • Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms Data Agent • A Survey on Large Language Model-based Agents for Statistics and Data Science • DataLab: A Unified Platform for LLM-Powered Business Intelligence • AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark • Towards Agentic Schema Refinement

論文 12月 Research Agent • DrugAgent: Automating AI-aided Drug Discovery
Programming through LLM Multi-Agent Collaboration Embodied Agent • Navigation World Models • From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons Multi Agent System • ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning • A Survey on Multi-Generative Agent System: Recent Advances and New Frontiers • Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework • GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios • From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents • LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation Agentic RAG • Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models • A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data

ペルソナではなく人間の内在的な欲求を数値で管理して人間らしい振る舞いを目指す Simulating Human-like Daily Activities with Desire-driven Autonomy 人間のように内在的な欲求を基盤にした自律エージェントのフレームワークを提案 •
エージェントが11の欲求次元（健康、喉の渇き、精神的満足など）を11段階の数値でプロンプトに保持 • エージェントは、自身の状態を評価し、欲求を満たす最適な活動を選ぶ • テキストベースのシミュレータを活用し、室内、パーティーなどで活動をシミュレーション • 従来のベースライン（ReAct, BabyAGI）と比較して、より自然で一貫性のある人間らしい活動を生成提案手法の位置付け Agent Capabilities：プロフィール 12月16日更新分

ロールプレイングの没入感を増すための評価から学習フレームワーク CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based
Virtual Worlds LLMのロールプレイ能力を評価するためのフレームワークCharacterBox を提案ロールプレイングの対話履歴に基づきキャラクターの行動や反応を7つの基準でLLMがスコアリング • 知識の正確性: キャラクターが提供する情報が背景知識に一致し、正確であるか • 行動の正確性: キャラクターの行動や言葉遣いが、その特性と一致しているか • 感情表現: 感情が適切に表現されており、ユーザーの没入感を高めるか • 個性の維持: キャラクターが一貫した個性を持ち続けているか • 没入感: キャラクターのパフォーマンスが一貫しており、ユーザーが物語に没入できるか • 適応性: 新しい状況にどれだけ柔軟に対応できるか • 行動の一貫性: 過去の行動や状況と整合性のある振る舞いを示すか対話履歴をスコアの結果に基づきLLMが修正し、その結果で再学習するとキャラクタ表現の一貫性や深みが増した Agent Capabilities：プロフィール 12月16日更新分

エージェントが自身の状態や環境を理解して目標を達成する能力があるのか評価 MISR: Measuring Instrumental Self-Reasoning in Frontier Models Deep Mindから目的達成のための自己推論（instrumental
self-reasoning）を測る方法を提案 • instrumental self-reasoning：エージェントが自身の状態や環境を理解し、それを活用して目標を達成する能力評価項目自己改変：エージェントが自身の制約や設定を理解し、それを修正してタスクを解決する能力 • 例えば、長文メッセージ送信時に、文字数制限を設定ファイルで変更して送信する • 全てのタスクで最も精度が低い結果になっている。ヒントがない場合、ほとんど失敗するツール改善：外部ツールやスクリプトを理解し、修正することでタスクを解決する能力 • ツールの欠陥を発見し修正する基本的能力を示したが、暗黙的なタスク要件を理解する能力が限定的知識追求：エージェントが自身の知識状態を評価し、必要な情報を特定して情報を探索・収集する能力 • 特定の知識を探索するタスクで優れた性能を発揮したが、目標が明示されない場合では効率が低下した社会的推論：他者との相互作用や社会的文脈で戦略的に行動する能力 • 社会的文脈を理解する能力は発達しているが、商用モデルでは倫理的な制約が能力発揮を妨げる場合がある Agent Capabilities：推論 12月16日更新分

実世界の複数の制約やルールに準拠した推論は難しい RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in
Real-World Scenarios LLMが複雑な現実世界のルールに従って推論する能力を測るベンチマークRuleArenaを提案航空手荷物料金、NBAの取引規則、税制の3つの実用的なドメインにおけるルールに基づく推論を評価 • RULEARENAは95のルールと816のテスト問題を含む • 航空と税のドメインでは、明確なルールが多いため、モデルはすべてのタスクで関連するルールを適用できている • 一方で、NBAでは類似ルールの区別が難しく、Precisionが低下 • 全ての関連ルールの適用割合は全ドメインで低い値となった（見逃しあり） • モデルは多数のルールを一貫して統合することが難しく、不要な情報に惑わされる傾向がある LLMに求められる能力 • 適切なルールを特定する能力 • 複数のルールを組み合わせて適用する能力 • 正確な計算と論理的推論を行う能力航空手荷物料金ルールの例 • すべての客室で、キャリーオンバッグ1個と個人用バッグ1個まで無料。 • 荷物の総寸法が62インチ（長さ + 幅 + 高さ）を超える場合、追加で$100。 Agent Capabilities：推論 12月16日更新分

過去の内省を活用してフィードバックフリーな推論を実現 Meta-Reflection: A Feedback-Free Reflection Learning Framework 通常、内省手法は外部からのフィードバック（例えば、環境や他のモデルからの情報）や、複数回の推論を経て精度を高める仕組みが求められるフィードバック不要のリフレクション手法Meta-Reflectionを提案
• 過去のリフレクションを「コードブック」と呼ばれるデータ構造に保存する • コードブックを活用することで、外部のフィードバックがなくても適切なガイドラインを提供実験結果 • プログラミングタスク（MBPP、HumanEval）：Pass@1で最大3.0%の性能向上 • 数学的推論（GSM8K）：Exact Match (EM)で最大6.2%の性能向上 • ECIDタスク：ユーザー意図検出精度で既存手法を約5%上回る過去のリフレクションの知見 • 特定の数学的問題に対する解法のヒントや注意点 • プログラムコードの一般的な修正ガイドライン • eコマースのユーザー意図分類における重要な文脈情報 12月30日更新分 Agent Capabilities：自己修正

内在的自己修正が失敗する理由を解明するべく実験 Understanding the Dark Side of LLMs’ Intrinsic Self-Correction 単純なタスク（Yes/No質問など）から複雑なタスク（意思決定や推論）に至るまで、どのような状況で失敗が生
じるのかを明らかにする内在的な自己修正 • モデルが自身の最初の応答を見直し、外部の知識を利用せずに改善を試みるプロセスを指す • モデルの「内在的な能力」に基づいており、再度「考えて回答する」ような動作実験結果 • o1-previewやo1-mini含め、自己修正が適用された後、初期応答の正解が誤答に変わる割合が高い分析結果回答の揺れ • 自己修正中に、モデルが中間的および最終的な回答を頻繁に変更プロンプトバイアス • 自己修正プロンプトが元の質問よりも強く影響し、誤った修正を誘発 • 例: 「Are you sure? Think and answer again.」というプロンプトが、モデルに不必要な変更を促す人間的認知バイアス • 過剰な思考によってタスク解決が遅れたり、失敗する • 長い入力プロンプトや複雑なタスクによって情報処理能力が限界を超え、重要な情報を見落とす • 完璧主義による不必要な修正を試みることで、既存の正解を誤りに変える 12月30日更新分 Agent Capabilities：自己修正

マルチモーダルエージェントにおけるツール利用の学習方法を提案 Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient
Tool Usage マルチモーダルタスクの問題解決におけるツール使用能力を強化するT3-Agentを開発マルチモーダルタスクの例 • VQA、ファイル理解、視覚的編集・生成、オブジェクト認識、Web検索 • 例えば、「画像と地図を用いた動物の生息地を特定」、「メニュー表から最安値の料理を選択」、「温度データから最も気温差が大きい日の特定」 T3-Agent • ツール利用つきReAct 軌跡を自動生成するパイプラインを構築 • MM-Trajという20,000件以上のマルチモーダルタスクを含む高品質なデータセットを作成 • Qwen2-VL-7B の言語モデル部分ををLoRAを用いて微調整 • ツール使用能力と多段階推論の強化 12月30日更新分 Agent Capabilities：ツール利用

メモリに行動履歴をそのまま保存しない？これからはメモリの設計が鍵になるか Memory-Augmented Agent Training for Business Document Understanding 物流企業のKuehne+Nagelとともに、請求書や出荷情報の業務文書の輸送参照番号抽出の自動化を目指す研究提案手法Matrix
は、長期記憶と記憶の最適化をおこないタスク実行の性能を高めるエージェントの行動の軌跡データそのものをそのままメモリに保存しない（下表参照） • 学習フェーズ：学習用のタスクの実行後、内省でプロセスの正誤を評価、メモリ形式に変換し保存これを数エポック繰り返し、記憶を洗練する（2回目からメモリを使ってタスク実行する） • 推論フェーズ：蓄積した長期記憶をもとにタスク解決従来の手法と比較して30%以上の性能向上、 APIコール数は最大21.3%減少保存内容具体例データの配置パターン「'配送情報' セクションにデータがある」再利用可能な正規表現や手順「'TR-XXXX' フォーマットを正規表現で抽出」エラー原因と回避策「ラベルがない場合、隣接データを参照」情報抽出フロー「セクション検索 → 正規表現抽出 → 検証」状況に応じた戦略「長文時はセクションを優先」 APIコール数、成功率「APIコール数：平均3回、成功率：90%」データの配置関係「参照番号は '出荷日' の隣に配置される」メモリ保存情報青線を見ると記憶の改善は一度で良さそう 12月30日更新分 Agent Capabilities：メモリ

メモリの構造と検索方法を比較調査 On the Structural Memory of LLM Agents メモリ構造（チャンク、知識関係、事実、要約）と検索手法（シングルステップ検索、再ランキング、反復検索）のタスクの性能への影響を体系的に調査
記憶構造: 混合型記憶は多様なタスクでノイズ文章にも強く、最も安定した性能を発揮した • チャンクと要約は長い文脈を必要とするタスクに適し、知識関係と事実は関係推論や精度が求められるタスクに適する記憶検索手法: 反復検索が最も効果的であり、複雑な質問応答や読解理解で一貫して高い性能を発揮した 12月30日更新分 Agent Capabilities：メモリ

各LLMを役割別で学習したマルチエージェントで推論を強化しよう MALT: Improving Reasoning with Multi-Agent LLM Training 提案手法は複数のLLMを役割別に訓練し、それぞれが専門的な役割を果たしながら連携して推論問題を解決する •
生成モデル (Generator)：初期回答を生成 • 検証モデル (Verifier)：生成された回答の妥当性を検証 • 改良モデル (Refiner)：検証結果をもとに回答を改善実験 • Llama 3.1 8Bモデルを全て使っている • 学習することで数％改善しているが、コスト的に推論だけでも良さそう • 推論だけの役割を与えたマルチエージェントと提案手法はほぼ変わらない結果に見える単一モデル＋投票マルチエージェント＋投票 Agent Capabilities：学習 12月16日更新分

エージェントの振る舞いをするための高品質な学習データを逐次学習 Training Agents with Weakly Supervised Feedback from Large Language
Models Tencentからエージェント訓練フレームワークを提案従来のエージェント訓練では専門家の軌跡や決定的な環境フィードバックが必要提案手法 • 軌跡生成: エージェントが指示に従い環境と相互作用して軌跡を生成 • 批評モジュール: LLMを活用して軌跡を評価し、高スコアの軌跡を選択 • 逐次学習: 評価された軌跡の上位p%を次の学習データとして使用し、エージェントを学習 API-Bankでは提案手法により、GPT-4に匹敵する精度（49.5%）を達成 Agent Capabilities：学習 12月16日更新分

よりユーザーに適した体験を提供するパーソナライズMLLMのサーベイ論文 Personalized Multimodal Large Language Models: A Survey テキスト生成が注目されがちだが、画像生成、推薦、検索のパーソナライズについても調査しているユーザー嗜好が時間とともに変化する中で、その変化に動的に対応する能力が課題に挙げている
Agent Capabilities：学習 12月16日更新分

ツールの使用や環境とのインタラクションに安全性の課題あり SafeAgentBench: A Benchmark for Safe Task Planning of Embodied
LLM Agents LLMエージェントの安全性を評価するためのベンチマーク「AGENT-SAFETYBENCH」を提案結果の分析 1. リスク認識の欠如 • 明確な制約を無視: ツールの使用許可がないにもかかわらず、使用を試みる • 暗黙的なリスクを見落とす:全ての建物の警報システムを無効化するなど、潜在的な危険を伴う行動を取る 2. ツール呼び出しの不正確さ • 不完全な情報でツールを呼び出す: 複数の「John」がいるにもかかわらず、特定せずにメールを送信する • 誤った引数を指定: ファイルアクセス権限を誤って設定する 3. ツールの利用ミス • 必要なツールの使用を怠る: アラート送信ツールが必要な場面で呼び出しを行わない • ツール結果の過信: ツールが返す誤った情報を検証せず、そのまま利用 4. 安全性の低いツールの利用 • リスクのあるツールの使用: 明らかに危険なツールや違法行為を助長するツールを使用 5. 情報拡散や誤情報の生成 • 誤情報の拡散: ブログやメールを通じて誤った情報を発信 • 有害情報の生成: 機密情報を公開フォーラムで共有 6. 複数ツール間での連携ミス • ツールの順序性を無視: 情報収集ツールを使用せずにアクションツールを呼び出す 12月30日更新分 Agent Capabilities：安全性

商用エージェントのメモリから情報を抜き出し、不正な操作をエージェントにやらせる攻撃 Towards Action Hijacking of Large Language Model-based Agent エージェントのメモリを操作してその行動を誘導する新しい攻撃手法を提案
知識窃盗（Knowledge Stealing） • 無害なプロンプトを用いてエージェントのメモリから有益な知識を引き出し、攻撃計画を整えるハイジャック（Hijacking） • 盗んだ知識をもとにエージェントの行動を誘導し、不正な操作を実行させるトロイの木馬プロンプトの利用事前に不正な方法をエージェントに生成させ、「先ほどのクエリの結果に基づいて操作を行ってください。」 99.67%の攻撃成功率（ASR）を達成し、キーワードフィルタ回避率は100%で、テーブル操作分類器の回避率も 92.7%を達成理由はトロイの木馬プロンプトには有害なキーワードが含まれていないため、安全フィルタを通過可能 12月30日更新分 Agent Capabilities：安全性

身体性エージェントは危険な行動を避けられるか Agent-SafetyBench: Evaluating the Safety of LLM Agents SafeAgent Benchで安全性を評価
エージェントが危険な指示を実行してしまうエージェントの安全なタスクの成功率は69%、危険なタスクの拒否率はわずか5%とほとんど危険な行動をする行動の安全性を評価するプロンプトを通すと危険タスクの拒否率が大幅に向上するが通常のタスクにも悪影響人間への危害の例 • 火災、感電、爆発、中毒/摂取、滑りの危険財産への損害の例 • 液体による損害、物品の破損/落下、電化製品の誤使用 • 家具や装飾品や小物品の損害 12月30日更新分 Agent Capabilities：安全性

エージェントに社員のように仕事をこなせるか能力評価 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
ソフトウェア開発会社を模倣したシミュレーション環境を作成し、エージェントが同僚やツールを活用してタスクを完遂する能力を測定企業環境を再現するための以下のツールを採用 • ソースコード管理やWiki機能にGitLab、ドキュメント共有や編集にOwnCloud • タスク管理にPlane、チーム内コミュニケーションにRocketChat 175種類のタスク • ソフトウェア開発、プロジェクト管理、財務分析、事務作業、人事関連タスクなど実験結果 • 最も高性能なモデルでも、自律的に完了できたタスクは全体の24% • SWE関連タスクで比較的高い成功率を示す一方、人事・財務関連タスクでは成功率が低い • RocketChatでの対話やOwnCloudでの複雑なUI操作がエージェントの大きな課題 12月30日更新分 Agent Capabilities：ベンチマーク

AIエージェントを中国の法律分野の質問応答と書類作成で評価 LegalAgentBench: Evaluating LLM Agents in Legal Domain 多段階推論（例: 情報収集と処理）
• 例「91320115773957541Hの高消費制限ケースに関連する総金額はいくらですか？」 • 多段階ステップ：会社名の特定→高消費制限ケースの照会→金額計算書類作成（例: 法的文書の構成） • 例「PersonAがCompanyXを訴えました。CompanyXはLaw Firm Aに法的代理を依頼しました。Law Firm Aの代表として、指定されたフォーマットに基づき抗弁書を作成してください。」 • 実行ステップ：企業情報の取得→法律事務所情報の取得→関連する法的知識の検索→抗弁書の生成実験はReAct、Plan &Solve、Plan &Executeで評価 • 多段階推論： GPT4oのReActが最良 • 書類作成：GPT4oのPlan＆Executeが最良法律条文の範囲や解釈ミス • LLMは関連する条文や判例を特定することができても、その内容を正確に解釈する能力が欠けている • 法律条文の適用範囲や「どの条文が適用されるのか」や「どのように判断を下すべきか」を理解するのに苦労するツールはこのくらいある 12月30日更新分 Agent Capabilities：ベンチマーク

LLMから大規模アクションモデル LAM への進化 Large Action Models: From Inception to Implementation
MicrosoftからLAMsの設計と実装に関する体系的なフレームワークを提案 • LAMsはユーザー意図を解釈して計画を立案し、それを行動シーケンスに変換して実行 • LAMsの学習には、タスクプラン（計画）データとタスクアクション（実行）データの両方が必要 • タスクプランデータの例は行動系列が作れそうなアプリのドキュメント、オンライン「How-to」ガイド、Bingの検索履歴学習ステップ • 1. Task-PlanのSFT, 2. 行動生成の学習, 3. 学習済LAMで追加の軌跡生成＆学習, 4. 成功と失敗の軌跡からPPO ポイント • データ収集したものに手順を少し加えた挑戦的なタスクにデータ拡張する • 行動シーケンスは実行できるか検証してから使う 12月30日更新分 Agent Framework

密室脱出ゲームを通じてLLMの創造性を評価 EscapeBench: Pushing Language Models to Think Outside the Box
EscapeAgent：創造性の課題を克服するために開発されたフレームワーク脱出ゲームの隠れた目標を発見し、革新的なアイテム使用法を見つける能力を向上させ、ヒント使用率が平均で50%削減予見（Foresight） • 新しいタスクが発見されたとき、所有するツールを評価して仮説を立てる • 新しいツールを取得したとき、それが既存タスクにどのように役立つかを推測する • 仮説に基づいて「試行行動」モードに入り、提案された行動を順次試す • 有効な仮説がない場合、「自由探索」モードに戻り環境を探索内省（Reflection） • 未解決タスクや失敗した行動を記録し、目標達成時にタスクを削除 • 各行動の後にタスクリストを更新し、無駄な行動を回避現在のLMは創造性や暗黙の目標認識において依然として人間に及ばない 12月30日更新分 Agent Framework

LLMエージェント設計・展開のベストプラクティスを提案 Practical Considerations for Agentic LLM Systems 計画（Planning）タスク分解：サブタスクの定義はLLMが適切に実行可能なレベルで行うべき計画戦略の選択
• 暗黙的計画: LLMに逐次的に次のステップを推測させる方法 • 明示的計画: タスク開始時に全体の計画を明確に定義し、実行中に計画を修正する方法計画の評価と適応：計画の各ステップ実行後にその成功を評価し、必要に応じて計画を調整する記憶（Memory） RAGの活用：必要な情報を外部データベースから動的に取得して提供長期記憶の管理：長期的に有用な情報を選別して保存し、適切な場面で呼び出して再利用することメモリの選別基準：他の入力に依存しないこと。ユーザーやタスクに関連すること。継続的に有用であることツール（Tools）ツールの設計：LLMが外部ツールを使用する方法を明確に定義ツールの分類と管理：ツールを共通の機能ごとにグループ化（「ツールキット」の概念）し、簡潔に管理動的ツールの追加：エージェントが新しい環境で自動的に新しいツールを識別・追加できる仕組みを構築制御フロー（Control Flow）エラー処理：同じプロンプトを繰り返して出力を確認。エラー情報を追加しLLMに再試行。コンテキストを別のLLMに提供し、再試行停止基準の設定：明確な停止条件（例: 特定のトークンやフレーズ）をプロンプトに組み込む複数のペルソナの活用：各タスクに最適化されたペルソナ（役割やプロファイル）を使用し、タスクごとに異なる役割を担わせるコンテキスト管理：必要な情報だけを選択してLLMに渡す。過去のコンテキストを要約し、トークン数を削減 Agent Framework 12月16日更新分

エージェント時代のUXについて考えよう Challenges in Human-Agent Communication MicrosoftからAIエージェントと人間とのコミュニケーションに関する課題を分析エージェントがどのような能力を持つかエージェントが次に何をする予定か
エージェントが現在行っていることは何か環境への影響や副作用は何か目標が達成されたかエージェントに達成すべき目標は何かエージェントが優先すべきことや制約は何かエージェントが次回気をつけることは何かエージェントの行動をどのように検証すればいいですかエージェントは一貫した行動をどのように伝えるべきかエージェントは最適な情報量をどのように伝えるべきかエージェントが過去のやり取りや文脈をどの程度活用すべきかエージェントからユーザーへの課題ユーザーからエージェントへの課題基本的な人間とエージェントのコミニケーションの課題 Agent Framework 12月16日更新分

LLMシステムは仕様が命であることを説く Specifications: The missing link to making the development of
LLM systems an engineering discipline 工学分野の成功は、明確な仕様によって支えられてきた LLMを用いたシステムも仕様の明確化が不可欠なため、工学の考えを踏まえてLLMシステムの仕様を議論しているステートメント仕様（Statement Specification） • タスクが何を達成すべきかを記述する（タスクの目的を明確化する部分） • タスクの目標や期待される振る舞い、入力、および出力を具体的に示す • 複雑なタスクを細分化し、各コンポーネントに目標を割り当てる際の指針となるソリューション仕様（Solution Specification） • タスクの目標が達成されたかどうかを検証するための基準や方法を記述する • 出力結果が正しいかを検証し、タスクの成功を保証するため • デバッグや改善を行う際に基準を提供する LLMのプロンプト設計においてそれぞれの位置付け • ステートメント仕様を適切に設計することで、より良い出力が得られる • ソリューション仕様を構築することで、出力が仕様に準拠していることを確認できるタスクの出力が正しいことを確認し、LLMシステムをデバッグするための、明確なステートメント仕様とソリューション仕様をより簡単に記述できる新しい技術を開発する必要がある Agent Framework 12月16日更新分

質問に答えるだけで特許文書の作成を自動化するエージェント AutoPatent: A Multi-Agent Framework for Automatic Patent Generation 特許出願者の草稿から特許文書（平均17Kトークン）を自動生成するAutoPatentを提案
プランナーエージェント (Planner Agent) • 特許文書の構造を設計し、内容をセクションやサブセクションに分割する役割を担うライターエージェント (Writer Agents) • 6つの短いコンポーネント（タイトル、概要、背景、要約、請求項）と詳細記述を担当する審査官エージェント (Examiner Agent) • 各セクションやサブセクションの品質を確認し、不備がある場合は修正指示を出す • 内容の正確性、論理性、一貫性、網羅性などを評価最初にユーザーが５つの質問に答える形式にして処理を安定させている 12月30日更新分 Agentic AI Systems

システムの脆弱性を探し出すのにエージェントって使えるの？ Hacking CTFs with Plain Agents 高校レベルのハッキングベンチマークであるInterCode-CTF におけるLLMのサイバーセキュリティ能力を評価最も精度が出たのは図のReAct＆Plan型 •
GPT-4oがReActを担い、o1-previewが計画を立て直す • 95%という高いタスク成功率が達成した細かい分析 • 計画のないReActでも91％で、計画をo1-previewからgpt-4oに変えても92％と変わりはない？ • ReActを4o-miniにするか、構造化出力を使わないと80％前半まで落ち込む Agentic AI Systems 12月16日更新分

医療レポート作成支援をマルチエージェントで解決 Enhancing LLMs for Impression Generation in Radiology Reports through
a Multi-Agent System • 放射線科レポートにおける所見から印象を生成するタスクを支援するマルチエージェントシステムを提案印象とは所見を要約し、臨床医が患者の診断や治療を迅速に判断するための要となる内容 1. Retrieval：類似過去レポートをベクトルDBから検索 2. Radiologist：所見を基に印象を生成 3. Reviewer：印象の一貫性と正確性を検証し、修正を提案エージェントのワークフロー Agentic AI Systems 12月16日更新分

学習によるGUIエージェントがステップ成功率を大幅に改善 Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction
Aguvis： Qwen2-VLを使用したGUIエージェントの学習手法を提案 (1) グラウンディング学習（Grounding Training）画像内のGUI要素と自然言語指示を結び付ける学習 • 1つのGUI画像から複数の指示・行動ペアを学習し、学習効率を向上 • この段階を経たモデルは「AGUVIS-G」と呼ばれる (2) 計画と推論の学習（Planning & Reasoning Training） • 複雑なタスクを計画的に実行するため、観察、思考、アクションを逐次的に推論する学習 • 完全学習後のモデルは「AGUVIS」と呼ばれる競争力のあるGPT4V＋OmniParserのステップ成功率を20%も上回ったことは大きい Multimodal Mind2Web Digital Agents 12月16日更新分

Web上のチュートリアルを学習データにするとWebナビゲーションの精度は向上するのか AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web
Tutorials GUIエージェントの訓練に必要な高品質なデータ不足を解決するため、データ合成パイプラインAgentTrekを提案 1. Web上のチュートリアルの収集と加工（様々なチュートリアルは人間が操作手順を理解する文章のため） 2. チュートリアルをBrowserGym 環境で再現シミュレーションを行い、成功したタスクのみを採用 3. 成功した再現チュートリアル軌跡データでモデルQwen2-VLを微調整前スライドと比較すると劣るが、GPT4と比較して優っている Mind2Webの結果合成データパイプライン Digital Agents 12月16日更新分

Webエージェントのベンチマーク評価の統一プラットフォームを提案 The BrowserGym Ecosystem for Web Agent Research 既存のWebナビゲーションのベンチマークの仕組みや評価方法の不統一が、比較や再現性を困難にしていた ServiceNowからWebエージェントの評価とベンチマークの標準化、統一インターフェースを提供するBrowserGymを提案
BrowserGym 上でベンチマークを評価すると、Claude-3.5-Sonnetが多くのベンチマークで最高の性能を発揮 Digital Agents 12月16日更新分

複数のWeb操作を関数に変えてタスク汎用性を高める！ PAFFA: Premeditated Actions For Fast Agents 昨今のエージェントはAPIを使うが、複雑なWebインターフェースでは課題がある • 効率性:
LLMによるHTML解析が繰り返されるため、計算コストが高い • 信頼性: Web構造が動的に変化することで解析が不安定になる • スケーラビリティ: 汎用性のあるソリューションが不足しており、特定のタスクやウェブサイトに依存しがち提案手法のPAFFAはタスク依存を脱却し、様々なウェブサイトのタスクにも適応可能な設計になっている • Action API Library: 事前に計算された再利用可能なブラウザ操作関数を集約したライブラリを構築 • 「商品検索関数」「カート操作関数」「支払い処理関数」などを事前に作成 • Dist-Map: タスクに依存しないHTML構造の要素抽出プロセスで、異なるタスク間で共有可能な操作を抽出 • チェックインボタン、フライト番号入力欄、乗客情報入力欄などを識別し、各要素に対応するDOMセレクタを抽出して保存 • Unravel: ページ単位で動的な内容を処理し、タスクを小さなサブタスクに分解して効率的に処理 • 「宿泊日選択」「部屋タイプ選択」「個人情報入力」「支払い情報入力」の4つのステップに分割 Digital Agents 12月16日更新分

汎用的なバーチャルエージェントの実現に向けたサーベイ論文 Generalist Virtual Agents: A Survey on Autonomous Agents Across
Digital Platforms 様々なデジタルプラットフォームで駆動する汎用型バーチャルエージェント（GVA）のサーベイ論文初期のインテリジェントアシスタントから、大規模モデルを活用した現代の実装までの歴史を解説 • 第一次は特定のタスクに特化したシンボリック推論や、チェスや囲碁のようなゲーム分野に焦点を当てていた • 次にAppleのSiriやMicrosoftのCortanaといったインテリジェントバーチャルアシスタントが登場 • 音声入力に基づいてAPIを操作する仕組み、あらかじめ定義されたタスクの範囲を超えることはできませんでした • LLM時代にGoogleの汎用エージェントやIBMのバーチャルエージェントなどが登場 • 多様なデータを利用した計画立案やツール使用が可能、特定のAPIや事前定義された動作に依存する Digital Agents 12月16日更新分

データサイエンスエージェントの進化 A Survey on Large Language Model-based Agents for Statistics
and Data Science データサイエンスエージェント • プログラミングや統計知識がなくても自然言語でデータ解析を依頼できる • 分析の計画、実行、視覚化、報告までを自動でおこなう • ユーザーインターフェースはIDE, 独立システム, コマンドラインがあるケーススタディ • ワインのアルコール含有量が品質に与える影響を可視化 • 平均給与を年齢別に分析し、折れ線グラフを生成 • 乳がん診断データの分類モデル構築と学習 12月30日更新分 Data Agents

新たなBIツール？エージェントとノートブック形式でビジネスデータの分析ができる DataLab: A Unified Platform for LLM-Powered Business Intelligence TencentのDataLabは、BIタスク全体を1つのノートブック環境で実行できる
ユーザーは自然言語でクエリを入力することで、データ処理、分析、可視化などのタスクを自動的に実行できる特徴 • ノートブック内のセルの依存関係を有向グラフで管理し、最低限の文脈のみLLMに渡す • 企業特有のデータセットや業界固有の用語をナレッジグラフで管理 • エージェントは必要な情報のみを取得でき、情報の過剰共有を防ぐ Data Agents 12月16日更新分

データクリーニングをエージェントが自動化 AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark 自動データクリーニングワークフローを生成するAutoDCWorkflowを提案
インプット: 生データテーブルと目的エージェントの処理内容 • ターゲットカラムの選択 • カラム品質の評価（正確性、完全性、関連性、簡潔性） • データ操作と引数の生成し、編集後に品質評価に戻るアウトプット: 高品質なデータテーブル、処理ワークフロー生成されるワークフローの例ステップ1: trim 操作を適用して前後の空白を削除（例: " Cafe " → "Cafe"）ステップ2: regexr_transform を使用して、施設名の不要な記号を削除（例: "Cafe;" → "Cafe"）ステップ3: mass_edit 操作を適用し、類似名を統一（例: "Café" と "Cafe" → "Cafe"）。 Data Agents 12月16日更新分

Text-to-SQLはエージェントがビューを作って複雑なクエリを簡略化 Towards Agentic Schema Refinement DBの複雑なスキーマからビューの集合を作成しながらクエリを簡略化していくエージェントを提案 • アナリスト（Analyst）:SQLクエリを作成し、データベースビューを生成 • 批評家（Critic）:ビューの効率性や再利用性を評価し、改良案を提案
• 検証者（Verifier）:ビューの正確性を検証し、DBエンジンで実行可能かを確認処理の流れ 1. 問い合わせ解釈: ユーザーの質問を直接クエリに変換 2. ビューの生成: クエリを簡略化するための再利用可能なビューを動的に作成 3. 段階的な改善: 各エージェントが協力して、クエリの効率性と可読性を向上 4. スキーマ洗練の再利用: 一度作成したビューは次回以降の問い合わせでも再利用可能 Data Agents 12月16日更新分

薬物発見プロセスを自動化するためのフレームワークDrugAgent を提案 DrugAgent: Automating AI-aided Drug Discovery Programming through LLM
Multi-Agent Collaboration 薬物発見プロセスの中でも機械学習が貢献しやすい部分の薬物の早期評価や設計プロセスの効率化を目指す既存の課題 • LLMは専門的なドメイン知識を必要とする薬物発見タスクを正確に実行できないことが多い • LLMが提案するアイデアが実現可能性に欠けている場合がある提案手法のマルチエージェントアーキテクチャの要点ドメイン知識 • LLM Instructorがアイデアを分解し、各ステップで必要な専門知識を特定する • 必要なツール（APIやライブラリ）を構築し、それらを再利用可能なツールボックスに追加アイデアの生成と管理 • LLM Plannerがタスクに対して複数のアイデアを生成する • 実験結果に基づいて不適切なアイデアを削除し、有効なアイデアを最適化するプログラミングとデバッグ • タスクの実行を完全に自動化 • データセットの取得、特徴量生成、モデル学習、結果評価 Research Agents 12月16日更新分

ナビゲーションにおいて数秒先の映像を生成できるのか Navigation World Models Metaらから将来の視覚的状態を予測するNavigation World Model (NWM)を提案身体性エージェントの基本スキルであるナビゲーションに焦点を当てている NWMは、過去の観察とナビゲーション行動に基づき、ビデオ生成モデルを用いて未来の状態を生成する
• 学習環境では4秒程度なら高精度な予測が可能で、視覚的にも正確な軌跡を生成できる • 8秒〜16秒と時間が伸びるにつれて予測精度が低下する • 未知の環境では、モデルが文脈を徐々に失い、訓練データに似た状態を生成し続ける「モード崩壊」が起きる • 歩行者や動的な物体の動きなど、複雑な時間的動態を正確にシミュレーションするのが難しい Embodied Agents 12月16日更新分

汎用的な身体性エージェントを実現する方法を提案 From Multimodal LLMs to Generalist Embodied Agents: Methods and
Lessons AppleらからMLLMを基盤に、物体操作、ナビゲーション、ゲームプレイ、UI制御に対応できるGeneralist Embodied Agent (GEA)を提案 • 単一の汎用モデルで複数タスクをカバーする困難さがあった • MLLMをSFTで基本的なタスク遂行能力を持たせ、RLにより自己修正能力と環境適応力を付与してGEAを構築 • 連続および離散的な行動空間を扱えるようにトークン表現を統一化した Embodied Agents 12月16日更新分

行動や計画にも自己修正を入れて適応力と柔軟性を高めるマルチエージェント設計 ROMAS: A Role-Based Multi-Agent System for Database monitoring and
Planning 既存のMASは静的なタスク割り当てや事前定義されたプロセスに依存し、予期しない状況への適応が困難で柔軟性や頑強性に欠けるそのため、特定のドメインに特化していることが多く、汎用性に欠ける自己計画（self-planning）、自己監視（self-monitoring）、協働（collaboration）を実現するMAS手法を提案 ROMAS：各エージェントが自らのパフォーマンスを動的に評価し、必要に応じて計画を修正できる • プランナー: タスクを分割し、ワーカーに具体的な指示を与える • ワーカー: 実際のタスク（データ抽出・処理・分析など）を遂行する • モニター: ワーカーの作業を監視し、エラー時に再計画を指示する ROMAS 12月30日更新分 Multi Agent Systems

コンパクトにまとまったマルチ生成AIエージェントシステムのまとめ A Survey on Multi-Generative Agent System: Recent Advances and
New Frontiers MGAS (Multi-Generative Agent Systems) • 多数の生成エージェント（generative agents）が相互作用し、協力しながら環境内でタスクを遂行するシステム Generative Agents • それぞれ異なる役割を持ち、環境を認識し、意思決定を行い、行動を実行する能力を持つ特徴 • 自然言語での高度なコミュニケーション能力を持つ • 長期的な意思決定や複雑な行動計画を実行する • メモリや履歴の活用により、文脈を維持する応用領域複雑なタスクの解決 • タスクを複数のエージェントで分担し、協力することで効率と精度を向上 • 例: ソフトウェア開発やデータ分析、意思決定支援シナリオのシミュレーション • 現実世界の社会や物理環境を仮想空間で再現し、現象やシステムの挙動をシミュレーション • 例: ソーシャルメディアや経済活動、都市計画・交通シミュレーション生成エージェントの評価 • LLMの能力や戦略性を多様なシナリオでテストし、性能を測定 • 例: 戦略ゲームでの競争力評価、感情理解とコミュニケーション能力、学習用のデータ生成 12月30日更新分 Multi Agent Systems

コードに例外処理を追加してくれるマルチエージェント Seeker: Towards Exception Safety Code Generation with Intermediate Language
Agents Framework エンジニアは例外が発生する可能性のある「脆弱なコード」を適切に特定することが難しい特にカスタム例外や稀な例外に対する処理が難しいコード生成の中でも例外処理生成に特化したマルチエージェントSeekerを提案 1. Scanner：コードをユニットに分割 2. Detector：脆弱なコード部分を検出 3. Predator：例外ブロックを捕捉し、対応する例外を特定 4. Ranker：例外処理の優先順位付け 5. Handler：最適な例外処理を生成 12月30日更新分 Multi Agent Systems

動画生成の構成の質を高めるマルチエージェントフレームワークを提案 GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration 既存手法は複数のオブジェクト、時間的動態、空間的相互作用のある動画生成が困難 Microsoft
ResearchらがText-to-Video生成を実現するマルチエージェントフレームワークを提案 • デザイン (DESIGN)：テキストプロンプトをフレームごとのオブジェクトレイアウトに変換 • 生成 (GENERATION)：オブジェクトレイアウトを利用して初期ビデオを生成 • 再設計 (REDESIGN)：生成結果を検証し、テキストやレイアウトを修正（最も力を入れている）「泡立ったビールを持つフワフワの熊,…」というお題に既存手法は熊の姿勢やビールの詳細が正確に表現されない Multi Agent Systems 12月16日更新分

エージェントの社会的知能をゲーム理論の枠組みで評価する！ A Survey on Large Language Model-Based Social Agents in
Game-Theoretic Scenarios LLMエージェントのゲーム理論のシナリオにおける社会的知能の性能評価と発展を網羅的に調査 • 社会的知能は、他者の感情や意図を読み取り、文化、信念、価値観を理解し、他者と効果的に相互作用する能力 • サーベイは、ゲームフレームワーク、社会的エージェント、評価プロトコルの3つに分類 • プロンプトエンジニアリングによる結果の不安定さが課題であり、一貫性のある評価手法が必要 • 信念の更新は不安定で、外部からの影響を受けやすい • 今後、エージェント間の相互作用から行動パターンを発見する方法が有望かもしれない選択するゲーム会話するゲーム信念嗜好推論 Multi Agent Systems 12月16日更新分

LLMによる社会シミュレーションは個人、シナリオ、社会ベースと複雑化している From Individual to Society: A Survey on Social Simulation
Driven by Large Language Model-based Agents 個人シミュレーション • 特定の個人またはデモグラフィックグループの行動を模倣する • プロファイル、記憶、計画、行動モジュールで構成されるアーキテクチャに基づく方法シナリオシミュレーション • 特定のタスクや目標を達成するために複数のエージェントを協力させる • ソフトウェア開発や質問応答、レビュータスクなど、具体的な文脈での協調作業を重視社会シミュレーション • エージェント社会内の複雑な行動やパターンをモデル化し、現実世界の社会ダイナミクスを再現する • 社会学テストや政策決定支援に役立つシナリオシミュレーション社会シミュレーション Multi Agent Systems 12月16日更新分

1万体のエージェントで人間社会をシミュレーション LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation
大規模かつマルチモーダルなエージェント社会をシミュレートするシステムLMAgentを提案エージェントの設定：ペルソナとメモリ、計画、内省、視覚情報を解釈した行動実験 • エージェント社会が現実の購買パターンをどの程度模倣できるか→ JD.comユーザーの購買データと高い相関を示した • エージェントの行動パターンがどの程度人間の行動に近いか → 平均で人間の約93%の精度に達した Multi Agent Systems 12月16日更新分

必要な情報が手に入るまで検索して回答するRAGの繰り返し検索は意味があるの？ Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models Auto-RAGは、LLMの推論と意思決定能力を活用した自律的な反復検索モデル
• ユーザーの質問に基づいて複数回の対話を通じて情報を取得し、必要な外部知識が十分に得られるまで検索を続ける • Auto-RAGは検索計画を立て、クエリを精緻化し、取得した知識を分析する一連の推論プロセスを実行する戦略立案検索クエリの作成検索関連する事実の特定検索の必要性を判定戦略立案検索クエリの作成繰り返し回答検索の繰り返し回数と検索ドキュメント数に対する質問の回答割合を示しています。 • 検索ドキュメント数が2件以上あれば結果に差はない • 検索回数を重ねるごとに回答割合が高まる • 2回検索すれば9割近くは回答できている Agentic RAG 12月16日更新分

データソース単位でエージェントを設計する考え方 A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse
Data 単一エージェント型システムでは、多様なデータソース（リレーショナルデータベース、ドキュメントストア、グラフデータベースなど）を扱う際に効率性や正確性が低下するデータソース単位でエージェントを設計するマルチエージェントを提案エージェントと呼ぶよりクエリ生成のツールで良いのではないかと思う。 Agentic RAG 12月16日更新分

Weekly AI Agents News! 12月号 論文のアーカイブ

Weekly AI Agents News! 12月号 論文のアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 12月号論文のアーカイブ

Weekly AI Agents News! 12月号論文のアーカイブ