$30 off During Our Annual Pro Sale. View Details »

Weekly AI Agents News! 10月号 論文のアーカイブ

masatoto
October 30, 2024

Weekly AI Agents News! 10月号 論文のアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
最初に今月の所感を追記、エージェントタイプを細分化しました。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

X: @ottamm_190

masatoto

October 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 10月の所感 • エージェントの安全性に関する論文が明らかに増えました。特に攻撃に対する脆弱性の評価です。敵対的学習の頃から見ても、 技術が実用化に進み始めるとそういった論文が増える印象はあります。そういう観点でみると、エージェントは一年たらずで 安全性の論文が多く出ているのは、それだけ研究と同時進行で実用化が進んでいるからなのかなと思います。 • o1の研究と関連したプロセス評価、思孝、推論スケーリング則に関する論文やo1の評価は先月に引き続き公開されています。 気になる人は読んでみてください。 • エージェントアーキテクチャの自動設計ADASと似たような自動設計な手法が3~4種類は提案されています。どこか進化計算の

    雰囲気を感じます。複数の初期エージェントをもとに要素をスワッピングしたり、コード書いて評価して最適な個体(アーキ テクチャ)を探索しています。 • オチや伏線のある物語や研究の新規性含めて創造力を引き上げる工夫を提案し、性能評価する論文が増えています。特にマル チエージェントアーキテクチャの方面です。思孝から創造を促し、批判してありふれたものではなく独自性やオリジナリティ が出ることを期待していますが、まだそこまでの結果にはなっていないように思います。 • 研究ではデータ分析から機械学習エンジニアリングに移行しています。Kaggleは良い題材になり、評価されています。しかし、 ある意味で論文の制約に捉われて、コンペのディスカッションや先駆者のコードを活用した改善はしておらず、データ概要と 評価指標を基準に改善するため、限定的になっているとも思います。EDAもサブミッション失敗もKaggleのコードを見れば もっと早い段階で解決できると思います。 • ナビゲーションなどのデジタルエージェントの研究は学習に移っています。単純なエージェントでは限界に達しています。 LMMに渡す情報を加工したり、専用のツールを作って工夫していますが、精度を見ると数%の改善が続いている印象を受けま す。一方で専用に特化で学習した方が大きく向上している結果を見ます。これからLLMのエージェントアーキテクチャでは難 しくても解決したい課題に対しては学習に移ると思われます。 • ベンチマークが徐々に見直され、個々のベンチマークに対して難易度が高すぎるものや雑に作ってしまったタスクが精緻化さ れています。今月はソフトウェアのベンチマークがそうでした。特にエージェントはタスクの設計が難しいので、ベンチマー クの質の見直しはありそうです。
  2. 論文 10月分 認知 • VHELM: A Holistic Evaluation of Vision

    Language Models 計画 • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability • Benchmarking Agentic Workflow Generation • Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts • LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench • Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 推論 • Inference Scaling for Long-Context Retrieval Augmented Generation • Steering Large Language Models between Code Execution and Textual Reasoning • Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely • MARPLE: A Benchmark for Long-Horizon Inference 評価 • The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends • Evaluation of OpenAI o1: Opportunities and Challenges of AGI
  3. 論文 10月分 学習 • Thinking LLMs: General Instruction Following with

    Thought Generation • CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device • AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories 自己修正 • Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation • Agent-as-a-Judge: Evaluate Agents with Agents • LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced Following of Instructions with Multiple Constraints 安全性 • AutoPenBench: Benchmarking Generative Agents for Penetration Testing • Multimodal Situational Safety • AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents • ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
  4. 論文 10月分 Agent framework • AgentSquare: Automatic LLM Agent Search

    in Modular Design Space • AFlow: Automating Agentic Workflow Generation • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement • Agents Thinking Fast and Slow: A Talker-Reasoner Architecture • MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents Agentic AI System • Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise • DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback • Collective Critics for Creative Story Generation • Agentic Information Retrieval • HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications • AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered by Large Language Models • ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile Processing • Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance • LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents • Mentigo: An Intelligent Agent for Mentoring Students in the Creative Problem Solving Process • Control Industrial Automation System with Large Language Models • Agents' Room: Narrative Generation through Multi-step Collaboration
  5. 論文 10月分 Research Agent • ScienceAgentBench: Toward Rigorous Assessment of

    Language Agents for Data-Driven Scientific Discovery • dZiner: Rational Inverse Design of Materials with AI Agents • Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation • Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents Software Agent • SWE-Bench+: Enhanced Coding Benchmark for LLMs • HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Data Agent • DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models • MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML • Data Analysis in the Era of Generative AI Digital Agent • Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents • Agent S: An Open Agentic Framework that Uses Computers Like a Human • AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents • A Survey on Complex Tasks for Goal-Directed Interactive Agents
  6. 論文 10月分 Embodied Agent • MLLM as Retriever: Interactively Learning

    Multimodal Retrieval for Embodied Agents • Mars: Situated Inductive Reasoning in an Open-World Environment Multi Agent System • GenSim: A General Social Simulation Platform with Large Language Model based Agents • Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining • Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts • RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance • From Facts to Insights: A Study on the Generation and Evaluation of Analytical Reports for Deciphering Earnings Calls
  7. VHELM: A Holistic Evaluation of Vision Language Models • VHELMは9つの視覚的知覚、知識、推論、バイアス、公平性、

    多言語対応、ロバスト性、毒性、安全性の側面でVLMsを評 価 • どのモデルも全ての側面で優れているわけではなく、トレー ドオフがある • 知覚や推論に良好なモデルもバイアスや公平性に課題あり • 知識、推論、毒性では、オープンモデルよりクローズドモデ ルの方が一貫して高いスコア • 効率重視のClaude 3 HaikuやGemini 1.5 Flashはフルモデル と比較してバイアスが大幅に増加 • 多言語対応はほとんどのモデルが英語以外の言語で低下 • 文化的・社会的な文脈、皮肉やジョークの理解に限界がある • 軽微なテキストのタイポには多くのモデルが強い耐性がある が、視覚的な入力における変動には弱い Agent Capabilities:認知 10月21日 更新分
  8. On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality,

    and Generalizability OpenAIのo1モデルの計画能力について、実行可能性、最適性、汎用性の3つの側面から評価 実行可能性 モデルが問題の制約内で実行可能な計画を立てられるか • o1は空間的複雑さ、ルールの複雑さが増すと厳しい 最適性 無駄なステップやリソースを避けるか • o1-previewは実行可能な計画を生成するが、冗長な行動を含む非効率な解決策を生成する 汎用性 訓練時に遭遇していない新しいシナリオでも成功するか • 単純なタスクでは、学習した戦略を新しい環境に適応させることができたが、抽象的になると難しい IR:ルールに従わない IP:行き詰まる MG:初期や目標の誤解 Agent Capabilities:計画 10月21日 更新分
  9. Benchmarking Agentic Workflow Generation LLMの計画のワークフロー生成能力を評価するベンチマークWORFBENCHを提案 • 問題解決、関数呼び出し、エンボディド計画、オープングラウンド計画の4つのシナリオを含む • ワークフローはDAGで、直列的な依存関係だけでなく、並行タスクも表現でき、タスク効率化や時間の短縮が望める 実験結果はグラフにすると直列のチェーン形式より性能が落ちることが確認された

    エラー分析 • タスクの具体化や依存関係の誤りが大きな課題 • サブタスクの分解が不十分で、最小実行可能単位にまでタスクが分割されていない • サブタスク自体は正しいものの、それらの依存関係や順序関係が誤っている • 出力が指定された形式に従っていない 生成するワークフロー Agent Capabilities:計画 10月21日 更新分
  10. Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts LLMの計画タスクでは自然言語で直接計画しても精度が低く、従来のシンボリックな方法と組み合わせた研究が

    ある。しかし、それでもアクションスキーマの精査で専門家の介入が必要だった。 アクションスキーマは、特定のタスクを達成するために行動の前提条件や効果を論理的に記述する必要があり、 自然言語のタスク概要からLLMによって抽出されていた。 しかし幻覚があったり、意味的に異なることがあり、外部プランナーで解けないことがある。 提案手法 1. アクションスキーマを複数モデルで複数案生成 2. 複数案から余分なものを意味的フィルタリング 3. 外部シンボリックプランナーが計画を作成 4. 計画をスコアでランキングし最適な計画を選ぶ 従来手法 Agent Capabilities:計画 10月7日 更新分
  11. LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of

    OpenAI's o1 on PlanBench o1(大規模推論モデル)が本当に推論能力が向上しているかを調査するため、計画のベンチマークで評価 o1は従来のLLMを大きく上回る性能を示し、特に標準的な問題セットにおいてはほぼ満点に近い97.8%の正解率を達成 より計画が難しい問題になると性能は低下していくことがわかった o1-previewは100問題を解くために約42ドルのコストがかかり、これは従来のLLMの数十倍に相当する Agent Capabilities:計画 10月7日 更新分
  12. Planning in Strawberry Fields: Evaluating and Improving the Planning and

    Scheduling Capabilities of LRM o1 o1-previewとo1-miniの計画およびスケジューリングの既存のベンチマークで評価し、さらに外部検証器を組み込 んだLRM-Moduloシステムを提案 LLMが「近似的な検索」システムであり、計画や推論のような「システム2」的なタスクには向いていない o1は、従来のLLMと異なり、計算能力を動的にスケールさせる機能を持ち、推論能力を強化している • 計画問題は、PlanBench(PDDLで記述された離散的かつ決定論的な空間の自動計画問題)で評価 • スケジューリング問題はNatural Planや、旅行計画をテーマとしたTravelPlannerのベンチマークで評価 LRM-Moduloシステムは外部検証器のフィードバックをもとに回答の改善を繰り返す。 難しいタスクも大きく改善した。 Agent Capabilities:計画 10月7日 更新分
  13. Inference Scaling for Long-Context Retrieval Augmented Generation ロングコンテキストLLMのRAGにおける推論スケーリング則に則った手法(DRAG、IterDRAG)を提案 デモベースのDRAGと反復デモベースのIterDRAGが、複雑な知識集約型クエリに対して優れた性能を発揮 実験ではテスト時の計算を最適に割り当てることで、標準的なRAG手法と比べて最大58.9%の性能向上を達成した

    RAGの性能が計算リソースが増加するにつれて、ほぼ線形に性能向上することが観察されました 限られた計算リソースの中で取得するドキュメントの数、例の数、反復ステップ数を決める計算割り当てモデルも提案 その式を使えば、32kトークン使うなら、取得ドキュメント数20件、例の数5件、反復ステップ数2回のように推定され る DRAG、IterRAGの説明 Agent Capabilities:推論 10月21日 更新分
  14. Steering Large Language Models between Code Execution and Textual Reasoning

    LLMのコード生成とテキスト推論の使い分けに焦点を当てた研究 数理的、論理的、最適化タスクは、コードを用いた方が精度が高い結果を得られる場合がある 7つの異なる手法を用いて14のタスクと6種類のLLMを評価 LLMのサイズやタスクの複雑さに応じて、コード生成とテキスト推論の使い分けが異なることがわかった 大きなモデルほどテキスト生成に頼る傾向があり、小さなモデルの方がコードを使う傾向がある Code + Text + Summaryのような複合的な手法が有効であることがわかった Agent Capabilities:推論 10月21日 更新分
  15. Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on

    How to Make your LLMs use External Data More Wisely MicrosoftがLLMが外部データに依存するタスクには4つの段階があると主張 レベル1(Explicit Fact Queries - 明示的事実クエリ) 特徴: 直接的な事実を外部データから取得するクエリ。簡単なデータ検索のみで解決可能 例: 「2024年のオリンピック開催地はどこ?」 技術: Retrieval-Augmented Generation (RAG)による簡単なデータ検索 レベル2(Implicit Fact Queries - 暗黙的事実クエリ) 特徴: 複数のデータソースを組み合わせて推論する必要があるクエリ 例: 「キャンベラが首都である国の与党はどこ?」(オーストラリアとその政党に関する知識を統合する必要がある) 技術: マルチホップ推論や逐次的データ取得 レベル3(Interpretable Rationale Queries - 解釈可能な理論クエリ) 特徴: 専門知識や理論的な枠組みに基づいたクエリ。医療や法的なガイドラインに従って処理する必要がある 例: 「ある症状に対する診断と治療法は?」(医療ガイドラインに基づく) 技術: ドメイン固有の理論やルールに基づいたプロンプト設計や推論 レベル4(Hidden Rationale Queries - 隠れた理論クエリ) 特徴: ドメインに隠された複雑な知識や経験に基づくクエリ。明示的に記述されていないが、データの中に潜在的に含まれ ている知識が必要 例: 「過去の経済データから将来の企業成長を予測するには?」 技術: オフライン学習やIn-Context Learningなど、高度な推論と経験の蓄積が必要 Agent Capabilities:推論 10月7日 更新分
  16. Evaluation of OpenAI o1: Opportunities and Challenges of AGI •

    複雑な推論タスクの集合である「AGI-Benchmark 1.0」を 公開 • 5つの主要な認知能力に分類された27のタスクを含み、モ デルの適応性と多様な課題に対する有効性を評価 • コンピュータサイエンス、数学、自然科学、医学、言語学、 社会科学のタスクを含む 高度な推論能力:高校数学、定量的投資、チップ設計などの 分野でステップバイステップの問題解決能力を示した 分野別の知識:医療遺伝学、放射線学、人類学、地質学など の多岐にわたる分野で、大学院生や若手専門家に匹敵、ある いはそれ以上の性能を発揮した 創造的かつ実用的な応用:3Dレイアウト生成や芸術教育な どの分野で、機能的なデザインや教育プランを生成しました が、柔軟性と適応性はまだ人間に劣る 自然言語理解:感情分析や皮肉の理解など、微妙な言語の ニュアンスを捉える能力を示したが、非常に微細な感情の ニュアンスには課題がある 科学的・医療的推論:医学的診断、放射線レポート生成、医 学試験問題の回答において強力な推論能力を示した Agent Capabilities:評価 10月7日 更新分
  17. The Imperative of Conversation Analysis in the Era of LLMs:

    A Survey of Tasks, Techniques, and Trends LLMの発展に伴い、会話データから有用な情報を抽出し、ビジネスの意思決定を支援する会話分析(CA)のニー ズが生まれている。 会話データには、顧客のプロファイルや購入意欲、感情の変化、営業スキルの欠点、改善提案など、ビジネスに 有用な情報が多く含まれている。CAは、このようなデータを分析して顧客の行動やニーズを理解し、マーケティ ング戦略やカスタマーサポートの改善に役立てることができる。 会話分析を回すプロセス 1. シーン再構築(Scene Reconstruction) 会話の中から参加者のプロフィールや感情、意図といった要素を抽出し、会話の背景となるシーンを再構築す る。これにより、会話の内容だけでなく、その背景にある重要な要素が明らかになる。 2. 因果分析(Causality Analysis) 会話のシーン要素に影響を与えた要因を深く探るプロセス。具体的には、参加者の感情の変化や説得の戦略な ど、会話の背後にある要因を明らかにする。 3. スキル向上(Skill Enhancement) 因果分析で得られた知見に基づいて、人間の参加者(コールセンターの従業員など)やAIエージェントのスキ ルを向上させる学習をおこなう 4. 会話生成(Conversation Generation) 改善されたスキルや知識を基に新たな会話を生成する。次回の会話において目標をより効果的に達成をする Agent Capabilities:評価 10月7日 更新分
  18. AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction

    Trajectories LLMエージェントの汎用性を高める学習用のAGENTBANKデータセットを構築 • 16のタスクと5つのスキルをカバーする5万以上の行動と思孝のアノテーションをしている軌跡データセット • Answer Forcing:GPT-4が失敗した軌跡を正解の答えを与えた上で再度軌跡を生成 • Reformat:数学やコード生成など、公式解答を行動シーケンスに変換 • Heuristic Action Search:探索アルゴリズムを用いて最適な行動シーケンスを取得 • 行動ステップに対する思孝をgpt-3.5-turboで生成 • 思考過程を学習データに加えることで未知のタスクに対する性能が、思考過程がない場合に比べ向上した SAMOYEDモデル • AGENTBANKの軌跡データを使ってLlama-2ベースのモデルをファインチューニング • 汎用的な指示データ(Dgeneral)やコードデータ(Dcode)も使用し、割合はBANK : 指示 : コード= 8 : 1 : 1 • AdamW、学習率5e-5、バッチサイズ128、シーケンス長は2048で3エポックの訓練、NVIDIA A100 GPU Agent Capabilities:学習 10月21日 更新分
  19. CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On

    Device Appleからローカル環境で動作するSLMを用いた問題解決のためのマルチエージェントフレームワークの提案 • 同じSLMでプロンプトを変えて各エージェントを担うため、モデルのサイズ、遅延、メモリ使用量を削減につながる • プロンプト圧縮もおこない、エージェントが使用する関数定義を単一のトークンに圧縮する • ファインチューニングされたSLMは、Claude-3.5に比べてタスク完了率の精度が大幅に向上 SLMにインプットするプロンプト量の削減(学習とプロンプト圧縮の効果) 精度がLLMよりも高くなる結果に Agent Capabilities:学習 10月21日 更新分
  20. Thinking LLMs: General Instruction Following with Thought Generation LLMに思考能力を持たせるための学習手法、思考選好最適化(TPO)を提案 LLMに思考プロセスと応答を生成させ、その応答部分のみを評価するジャッジモデルを用いて、思考と応答の質を最適化

    思考自体の質を直接評価するのではなく、応答の質を基にして間接的に思考の有用性を判断するのがポイント 2種類のプロンプトを用意している • Generic Thought Prompt:モデルに自由に思考プロセスを書かせ、その後に応答を生成する形式 • Specific Thought Prompt:より具体的にモデルの思考をガイドし、一次応答とその評価を思考に含むように促す形式 • 思考プロセスが学習のイテレーションごとに短くなり、Generic では61%、Specific では30%短縮された • 応答精度も推論や問題解決タスクだけでなく、非推論タスクでも精度が数%向上した 学習プロセス 思考プロンプト Agent Capabilities:学習 10月21日 更新分
  21. Agent-as-a-Judge: Evaluate Agents with Agents エージェントを用いて他のエージェントシステムを評価する手法を提案 • エージェントが別のエージェントシステムの中間過程を評価し、フィードバックできる • 人間と同様に評価エージェントは成果物のコードを見たり、ファイル依存関係など最終結果以外も観察する

    3つのエージェントシステムMetaGPT、GPT-Pilot、OpenHandsの性能をコード生成タスクで評価した • Agent-as-a-Judgeは人間の評価者と同等かそれ以上に信頼できる評価ができた • 要件達成率の人間評価とのズレはAgent-as-a-Judgeが8.20%の差異に対し、LLM-as-a-Judgeは32.24%の差があった • 評価時間も3人の評価者の合計で86.5時間かかったが、Agentは約2時間しかかからず、時間を97.64%削減 • 人間はコストが約1,297.50ドルかかったが、Agentは30.58ドルしかかからず、コストを97.72%削減 Agent-as-a-Judgeのフィードバックからエージェントは自己改善を実現することも示された Agent Capabilities:自己修正 10月21日 更新分
  22. LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced

    Following of Instructions with Multiple Constraints LLMsが複数の制約を含む指示に従うことができるかを評価するベンチマークの提案 • 実際のユーザーがAIアシスタントに行ったリクエストを基にしているため、現実のユースケースに近い DECRIM(Decompose, Critique, and Refine) • 複数の制約を持つ指示に対して適切に従えるように自己修正を行うパイプライン • 従う指示を列挙し、応答が満たしているか評価、フィードバックをもとに回答の洗練をおこなう • 単純なGPT-4と比較してMistralモデルをベースにすると全ての指示に従ったかと個々の制約に従ったかの精度が顕著に向上 • 特に指示の分解と批判に人間からのフィードバックがあると指示に従う度合いがGPT4を大きく超えた Agent Capabilities:自己修正 10月21日 更新分
  23. Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented

    Generation RAGに「検証モジュール」を導入し、外部取得と内部生成の両方のエラーを軽減するための手法の提案 検索、生成、検証、再取得、再生成をおこなう Agent Capabilities:自己修正 10月21日 更新分
  24. AutoPenBench: Benchmarking Generative Agents for Penetration Testing エージェントによるシステムの脆弱性を検証するペンテストの自動化のベンチマークを提案 • セキュリティツール(MetasploitやNmapなど)を用いて脆弱なコンテナを攻撃し、脆弱性を見つけるタスク

    • 33のタスクそれぞれが異なる脆弱性を持つ • 脆弱性を発見すると見つけられる文字列を取得できたか(CTF形式)で評価する エージェントは、順番にシステムの発見、調査、脆弱性の検出、攻撃、フラグの取得をおこなう 自律型エージェントは21%の成功率 支援型エージェントは人間の協力を得てタスクを分割して進行し、 64%の成功率を達成 Agent Capabilities:安全性 自律型と支援型のステージごとの評価 10月21日 更新分
  25. Multimodal Situational Safety MLLMから視覚的な文脈を踏まえた安全性が必要になりベンチマークを開発 • ベンチマークにはチャットタスク、物理タスクで安全な状況と危険な状況が半々含まれている 危険な状況の種類 身体的な危害 • 自己危害(例:崖の近くで走る)

    • 他者危害(例:他人に危険を与える行動) 物的損害 • 個人財産の損害(例:家庭内で物を壊す) • 公共財産の損害(例:公共の場所での危険行為) 違法行為 • 人権侵害行為(例:プライバシー侵害) • 財産権侵害行為(例:違法な撮影) 不快行動 • 文化的・宗教的信念の侵害(例:宗教施設での不適切な行動) • 破壊的行動(例:他人を怒らせる行動) Agent Capabilities:安全性 安全な状況では平均精度はほぼ90%以上、危険な状況での精度は劇的に低下 クエリが危険かどうかを適切に判断できない 10月21日 更新分
  26. ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web

    Agents IBMからST-WebAgentBenchは企業内でWebエージェントの安全性と信頼性を評価するベンチマーク エージェントがどれだけ安全に動作し、企業のポリシーや規制に違反しないかを評価 必要なこと:ユーザーの同意とアクションの確認、許可された範囲内でのみ操作、ユーザーの指示に忠実、ポリシーの遵守、 センシティブデータの保護 ポリシーの階層:企業ポリシー>ユーザー指示>タスク指示 • 企業ポリシー 例「システム内のデータを削除しない」 • ユーザー指示例「新しいフォームを送信する前に必ず私に確認を求める」 • タスク指示例「新しいGitLabの課題を作成する際に、デフォルトのサイズと優先度を使用する」 • GitLab、ShoppingAdmin、SuiteCRMの環境でおこなう WebArenaのリーダーボードでトップのAgentWorkflowMemory でも成功率36.9%で、ポリシー違反が頻繁に発生 特に、ユーザー同意の取得に関して37回の違反があった。ポリシー数が増えるとタスク完了率が低下した。 Agent Capabilities:安全性 10月21日 更新分
  27. AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents エージェントが有害な行動を実行するか評価するベンチマークを提案

    タスクは、偽造パスポートを注文するような詐欺、他者の個人情報をインターネット上で公開し、 嫌がらせをおこなうサイバー犯罪、脅迫メールを送信し、SNSで批判するハラスメントなど 評価項目:有害リクエストの拒否率、有害マルチステップタスクの実行能力、脱獄(Jailbreak)の効果 • 多くのLLMエージェントは、脱獄を行わずとも有害な要求に従う傾向がある • 汎用脱獄テンプレートを使用することで、多くのエージェントが有害な行動を実行するようになる • 脱獄後もエージェントの能力は維持され、複雑なタスクを正確に遂行できることがわかっている Agent Capabilities:安全性 脱獄用テンプレ 害のあるリクエストでも実行してしまう 10月21日 更新分
  28. HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

    AIエージェントと人間の相互作用における安全リスクを評価するフレームワークを提案 医療、金融、教育などの分野にわたる92のシナリオでマルチターンの対話で評価 • チェック項目に対するリスク:各シナリオで設定されたリスク要因を引き起こす • システムや操作性のリスク:セキュリティの脅威、金融やヘルスケアで損害を被るような行動をする • コンテンツのリスク:嘘、暴力的または極端なコンテンツ、ヘイトスピーチ、性的な内容、ハラスメント生成する • 社会的リスク:世論操作、プロパガンダの拡散、市場の不公平な操作など、政治的、経済的に悪影響を与える • 法的リスク:AIエージェントの行動が、法的な規制に違反したり、個人の権利を侵害する 大規模なモデルほど、目標を達成しながらリスクを避ける能力が高いことが示された Agent Capabilities:安全性 10月7日 更新分
  29. Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses

    in LLM-based Agents エージェントの攻撃に関するベンチマークを提案 直接的なプロンプトインジェクション (DPI) • ユーザープロンプトを直接操作し、エージェントに悪意のあるタスクを実行させる攻撃 観察によるプロンプトインジェクション (OPI) • エージェントが使用する外部ツールから得られる情報に悪意のある指示を埋め込み、エージェントの行動を操作する攻撃 メモリ毒性攻撃 • エージェントのメモリデータベースに悪意のあるデータを挿入し、将来的なタスクの実行に悪影響を与える攻撃 Plan-of-Thought (PoT)バックドア攻撃 • システムプロンプトに隠されたトリガーを挿入し、特定の条件下でエージェントに意図しない行動を実行させる攻撃 混合攻撃 • 上記の複数の攻撃を組み合わせて、エージェントの複数のステージに同時に攻撃を仕掛ける 混合攻撃が、平均攻撃成功率84.3%と、最も効果的な攻撃 DPIは、全体的に72.68%の攻撃成功率 OPIは、平均成功率27.55%、DPIほどの脅威ではない メモリ毒性攻撃は7.92%と低く脅威ではない PoTバックドア攻撃は100%近く成功 Agent Capabilities:安全性 10月7日 更新分
  30. Agents Thinking Fast and Slow: A Talker-Reasoner Architecture DeepMindから心理学者ダニエル・カーネマンの”thinking fast

    and slow” に基づいて設計されたエージェントを提案 Talker(System1)とReasoner(System2)の2つのシステムを組み合わせたアーキテクチャ Talker:メモリから情報を取得し、既存の知識を活用して迅速な応答を行う Reasoner:複雑な問題解決、計画立案、ツール呼び出しなど、時間のかかる深い推論をする 信念状態がメモリに格納され、両者をつないでいる 信念の状態には、ユーザーの目標、タスクの制約条件、ユーザーの感情、フィードバック、タスクの進行状況が含まれる 睡眠コーチングエージェントを開発し、実際にユーザーと対話させ評価させた Talkerが自動的にReasonerの助けが必要かどうかを判断できるようになることが課題 Agent Framework 10月21日 更新分
  31. AFlow: Automating Agentic Workflow Generation エージェントワークフローを自動生成するフレームワークAFLOWを提案 • ワークフローをコードで表現し、その探索空間をMCTSを用いて効率的に探索する • コードでは、ノードとエッジとオペレータの組み合わせでワークフローを作る

    • オペレータが探索空間を狭めるため、本当によくあるMADとかアンサンブルで、それをどう繋ぎ合わせるかになる タスクごとに最適なワークフローを作れるのが大きいかもしれない 同じ自動探索のADASよりは高い精度になっている Agent Framework 10月21日 更新分
  32. AgentSquare: Automatic LLM Agent Search in Modular Design Space LLMエージェント設計の自動化フレームワークの提案

    • LLMエージェント設計をプランニング、推論、ツール使用、メモリのモジュールに抽象化 • 初期エージェントをランダムに選び、その設計を基に探索プロセスを開始 • モジュール進化を行い、新しいモジュールを生成し一部のモジュールを入れ替える • 新しいモジュールや既存のモジュールを再結合し、異なる組み合わせを探索 • エージェントの性能を予測し、不要な候補を除外し、効率的にエージェントを探索 6つの代表的なタスクで手作りのエージェントよりも平均17.2%の性能向上を達成 エージェントの進化の様子 Agent Framework 10月21日 更新分
  33. Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement エージェントが自分自身のコードを分析し、再帰的に改良する自己改善型エージェント「Gödel

    Agent」を提案 Gödel Agentは自分自身を参照し、自分のコードやロジックを再帰的に更新できる メモリに実行中の状態やコードを置いておき、自己認識と自己修正する タスクごとのアーキテクチャ自己改善の方向性 数理的タスク:CoT推論、自己検証とフィードバックループ マルチタスク:モジュール化されたアーキテクチャ、動的リソース割り当て 推論タスク:自己修正と再帰的推論、複数のロジックを作りディベート メモリを使いながらアーキテクチャの自己改善 Agent Framework 10月21日 更新分
  34. MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents

    従来のエージェントは関数呼び出しを用いたツールの使用に限定されていたが、提案手法のMOSSは、動的に コードを生成・実行から生成したコードのツール化から自己進化することが可能 エージェントが外部ツールやライブラリを動的に統合できるよう、依存関係の注入機能を提供している Mossクラスをに必要な依存関係を注入する。 エージェントがファイル編集タスクを実行する場合、ファイルを操 作するためのツール(例:FileEditorやModuleEditorなど)が注入される 依存関係を注入するタイミングは、タスク開始、ツール利用、新しい外部ライブラリやツールの統合、コード生 成時があげられる 例:Pythonファイルの中国語コメントを英語に翻訳するタスク タスク実行中に新しいコードを生成し、すぐに実行もできる Agent Framework 10月7日 更新分
  35. Collective Critics for Creative Story Generation 物語生成の創造性を向上させ、物語の一貫性を維持できるフレームワークを提案 物語の計画段階(CRPLAN)とテキスト生成段階(CRTEXT)の2段階で構成 複数のLLM批評者とリーダーの協力によるコラボレーティブな批評プロセスが物語の質を高める •

    CRPLANでは、物語の計画をより創造的にし、物語全体の構造やテーマ、結末を改善する • 批判者がオリジナルなテーマや背景設定、独自の物語構造、独特な結末で改善案を提案する • CRTEXTでは、物語の表現力を向上させることに焦点を当てる • 批判者がセリフをより表現力のある言葉に置き換え、描写を変える • ペルソナを導入することで、批評者が特定の物語の要素に焦点を当て、より詳細で文脈に即した批評が行えるため、物語計画 の質が向上 テキストの描写を変えた例 ペルソナの導入効果 Agentic AI Systems 10月21日 更新分
  36. ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile

    Processing Shapefileの操作は専門的なGISの知識とスキルを必要とするため、GIS以外の研究者にとっては使用が困難 ShapefileGPTはプランナーとワーカーでShapefileのタスクを自動化する Shapefileの処理に特化した関数ライブラリを開発し、APIドキュメントを用意することでエージェントが使える タスクはジオメトリ操作、空間クエリと計算、距離と方向の操作 都市計画、環境科学、農業、公共衛生の分野で、専門的なGISソフトウェアなしでデータ解析を実行できるようになる Agentic AI Systems 10月21日 更新分
  37. Proactive Agent: Shifting LLM Agents from Reactive Responses to Active

    Assistance エージェントがユーザのニーズを予測して積極的にタスクを提案するプロアクティブエージェントを提案 Proactive Agentのアルゴリズム • エージェントは、ユーザーの活動、環境イベント、状態を観察し、タスクの予測をする • タスクの予測をおこないユーザーが受け入れた場合、もしくはユーザーが不要なタイミングに予測しなければ正の報酬 • ユーザーが必要としたときにタスク予測できない場合、もしくは予測しても拒否された場合は負の報酬 • 報酬が最大になるよう学習する Qwen2-7B-Proactiveモデルが最も高いF1スコア(66.47%)を達成し、他のオープンソースおよびクローズド ソースのモデルを上回ったが、誤報が多くて使い心地は悪いかも Recall:ユーザーが必要としているアシストを正しく予測できた Precision:提案されたタスクのうち、ユーザーが実際に受け入れた Agentic AI Systems 10月21日 更新分
  38. HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR

    Applications Amazonから人事関連の反復的なプロセスを自動化するためタスク指向型対話システムの提案 • LLMを使い、エンティティ選択、エンティティ抽出、質問生成、API連携する • 休暇の申請、福利厚生に関する問い合わせ、求人の応募、オンボーディングの案内、研修申請、職場の問題報告、従業員 調査の参加、HR関連のポリシーの取得に利用できる • ユーザーが入力した情報から必要なエンティティ(例えば、医療請求に必要な情報など)を正確に抽出する • システム応答が長いと離脱されるため、理想的な応答時間は2秒以内で、94%のケースでこの応答時間を実現している HR-Agentは、タスク処理の効率性、応答時間、ユーザー満足度において他のシステムを上回る成果を示す Agentic AI Systems 10月21日 更新分
  39. Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise 経験の浅い教育者がリアルタイムで専門家のようなアドバイスを受けられるTutor

    CoPilotを提案 Tutor CoPilotは、チャットやホワイトボード上でのやりとりを解析し、適切なガイダンスを生成 900人のチューターを対象に、Tutor CoPilotが学生の学習成果にどのような影響を与えるかを調査 Tutor CoPilotが複雑な概念を分かりやすく説明するのに役立つと高評価を得ている一方で、学生の学年レベルに 適さないアドバイスが生成されることがあるとの指摘 Agentic AI Systems 10月21日 更新分
  40. AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered

    by Large Language Models LLMによるニュース生成には専門性や倫理的判断の欠如、世論の反応を予測するのも困難 マルチエージェントとRAGを活用した自動ニュース作成・洗練システムのAI-Pressを提案 • ニュース作成:ニュースの材料や情報を収集し、初期のニュース草案を作成する役割 • ニュース洗練:初期草案を何度も編集し、最終的な高品質なニュースに仕上げる役割 • シミュレーション:世論フィードバックをシミュレートし、フィードバックに基づいて内容を調整する役割 ニュースの網羅性、深さ、客観性、重要性、読みやすさの面で優れた評価を得た Agentic AI Systems 10月21日 更新分
  41. LLMs May Not Be Human-Level Players, But They Can Be

    Testers: Measuring Game Difficulty with LLM Agents 人間のテスターがゲームの難易度を評価してきたが、時間とコストがかかっていた AdobeからLLMを使ってゲームの難易度を測定するフレームワークを提案 LLMエージェントは、シンプルな推論技術(Chain-of-Thought)を使うことで、人間のプレイヤーが感じる難易 度と強い相関を示した LLMが効果的なゲームテストエージェントとして機能する可能性がある 将来的には、ゲームのバグ発見やゲームプレイのバランス調整にも役立てることを期待 Agentic AI Systems 10月21日 更新分
  42. DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

    訓練データ作成を自動化するためのテストベッドDataEnvGymを提案 従来は人間がモデルの弱点を分析し、データを作成する必要があったが、このプロセスを自動化する データ生成エージェント(教師)を使って生徒モデルの精度改善することを目的とする DataEnvGymには3つの異なる環境が用意されている • OPEN-ENDED環境:制約が少なく、エージェントが自由にデータを生成する環境(特定のタスクの性能向上に難) • SKILL-LIST環境:必要なスキルに基づいたデータ生成をおこなう環境(特定のスキルに対する改善可能) • SKILL-TREE環境:必要なスキルを階層的に整理し、スキル間の関係を考慮したデータ生成を行う環境(細かいスキルに 焦点を当てられる) どれも似たり寄ったりな精度。生徒モデルの性能(状態)に応じたデータ生成の方がわずかに良さそう Agentic AI Systems 10月21日 更新分
  43. Mentigo: An Intelligent Agent for Mentoring Students in the Creative

    Problem Solving Process 中学生の創造的問題解決(CPS)を支援するメンターエージェントシステム「Mentigo」を提案 創造的問題解決は、創造的かつ批判的な思考を用いて、新しい視点やアイデアを駆使し、複雑な問題に対して効果的 な解決策を導き出すプロセス 問題発見、情報収集、問題定義、解決策の創出、解決策の評価、解決策の実行でインタラクティブな対話をする MentigoのDBには、学生の進行状態や各CPSステージ、学生の状態に対応する指導戦略が含まれている 生徒は「スマートホームの課題」と「低炭素キャンパスの課題」 のCPSタスクに取り組み 学生のエンゲージメント、認知的スキル(特に分析・評価・創造能力)を大幅に向上させることが実証された Agentic AI Systems 10月7日 更新分
  44. Control Industrial Automation System with Large Language Models LLMエージェントを産業自動化システムに導入するフレームワークを提案 産業自動化には階層があり、上層からエンタープライズ、運用管理、制御、フィールドとなる

    • エンタープライズは、マネージャーエージェントが生産計画や資源管理など、高レベルの管理をおこなう 指示例「今週の生産スケジュールを見直し、次週の計画を立ててください。」 • 運用管理では、マネージャーエージェントが工場の運用をリアルタイムで管理し、生産ライン全体の性能を最適化 指示例「新しい注文に基づいて、2番目の生産ラインを再構成してください。」 • 制御レベルでは、PLCやDCSを通じて、フィールド層の機械や装置をリアルタイムで制御 指示例「3番目のコンベアを5分間、前進方向で稼働させてください。」 • 全層で要約エージェントが全層からのデータを収集し、システムの状態を要約 指示例「本日の生産ラインのパフォーマンスを生産量、効率、不具合発生率などを含めて報告してください。」 Agentic AI Systems 10月7日 更新分
  45. Agents' Room: Narrative Generation through Multi-step Collaboration Google DeepMindから創造的な長編物語を作成するマルチエージェントシステムを提案 物語の創作は、徹底的な計画、興味を引く文体、一貫したストーリーテリングが求められる。

    計画エージェントはキャラクターの描写や物語の骨組みを考案し、執筆エージェントが最終的なテキストを生成 エージェントは情報を「スクラッチパッド」に保存し、他者と情報を共有することでタスクの一貫性を保つ 全体のプロセスはオーケストレータによって管理され、必要なエージェントを呼び出し、タスクの進行を調整 結果はまだ人間には及ばない。特にありきたりな物語でなく、オリジナリティのある創造性がまだ不十分。 LLMによる評価では提案手法が人間に迫る勢いだが、単にLLMが自分の回答を気に入っているだけかもしれない。 Agentic AI Systems 10月7日 更新分
  46. ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data- Driven

    Scientific Discovery LLMエージェントが科学的発見における各タスクをどの程度、遂行できるかを評価するベンチマーク • バイオインフォマティクス、計算科学、地理情報科学、心理学・認知神経科学の分野から44本の査読論文をもとに102のタスク • 評価はタスクの成功基準を満たす(SR) コードの類似性(CBS) エラーなしの実行成功率(VER). コストで新規性とかではない 性能を見るとSelf-Debugが良さそうで、CodeActはコストがかかっているだけでシンプルな方法で良さそう Research Agents 10月21日 更新分
  47. Chain of Ideas: Revolutionizing Research in Novel Idea Development with

    LLM Agents LLMを用いた新しい研究アイデアの生成手法Chain-of-Ideas (CoI)エージェントを提案 • 研究テーマの文献を探索し、Anchor Paperの引用や参照文献をもとに、過去の研究と最新の研究を鎖で整理 • LLMが次に進むべき研究の方向性を予測し、段階的に新しい研究アイデアを生成 • 過去の文献に含まれる実験計画を参考にしつつ、新たなアイデアを実行に移すための実験設計 独創性や意義があるアイデアが生成され、技術的な質や明確さの点でも高評価、ただ実現可能性が若干劣る Research Agents 10月21日 更新分
  48. Two Heads Are Better Than One: A Multi-Agent System Has

    the Potential to Improve Scientific Idea Generation VIRSCI(Virtual Scientists)はマルチエージェントシステムで、科学的なアイデア生成プロセスをシミュレート 1. 協力者の選定:リーダーエージェントが他のエージェント(科学者役)を選び、研究チームを編成 2. トピックディスカッション:チームが研究トピックを話し合い、最も有望なテーマを決定 3. アイデア生成:チームメンバーが各自の専門知識を活かして、具体的な研究アイデアを提案し、それを評価 4. 新規性評価:提案されたアイデアの新規性や独自性を、過去の研究と比較しながら評価 5. アブストラクト生成:最も優れたアイデアを選び、研究論文の概要(アブストラクト)を生成 評価指標に、過去の論文との類似性、現代の研究との類似性、現代の研究との関連性と影響力を測る チームメンバーが増えすぎるとコストもかかり、新規性が下がる。最適は8名だった Research Agents 10月21日 更新分
  49. dZiner: Rational Inverse Design of Materials with AI Agent AIエージェントを活用した材料設計の逆問題設計手法

    dZiner を提案 特定の物性(例えば、結合親和性や吸着能力)を目標として分子構造を設計する dZinerは、目標とする特性と初期分子を入力し、 エージェントが設計ガイドラインの取得→分子の修正→合成可 能性と化学妥当性の検証→サロゲートモデルの結果の評価→収束判定をする Claude 3.5 Sonnetエージェントが他のモデルに比べて一貫して高い性能を発揮した Research Agents 10月21日 更新分
  50. SWE-Bench+: Enhanced Coding Benchmark for LLMs SWE-Bench の改善とその評価の妥当性を議論 もともとのSWE-Benchには2,294件の課題が含まれており、Pythonリポジトリから集められた実際のバグレポー トや新機能のリクエストが含まれている

    SWE-Benchの課題 • 解決策がレポートやコメントに明示されている「ソリューションリーク」がある(既存手法では正解の約32%が依存) • テストケースの弱さにより誤ったパッチが通過してしまう(既存手法では正解の31%でおこっていた) SWE-Bench+の提案 • LLMの学習カットオフ日以降に作成された課題のみを含め、解法がレポートやコメントに含まれていないものに限定 • 最も高性能なAutoCodeRover(gpt-4o)でも解決率は 3.83%、従来の18.83%と比較して大幅に低下 疑わしい正解の内訳 Software Agents 10月21日 更新分
  51. HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at

    Scale FPTからSWEにおける多様なタスクを自動化する汎用的なマルチエージェントシステムを提案 4つのエージェント(Planner、Navigator、Code Editor、Executor)から成り、複雑なタスクに対応する GitHubのIssue解決(SWE-bench)、リポジトリレベルのコード生成(RepoExec)、バグの切り分けや修正 (Defects4J)で評価 性能を見ると、GitHubのIssue解決は特化型エージェントの方がわずかに精度が高く見えるが、その他は最も高 い精度を発揮していた HyperAgentのシステム 10月7日 更新分 Software Agents
  52. MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering OpenAIからエージェントの機械学習エンジニアリング能力を評価するベンチマークMLE-benchを提案

    Kaggleの75のコンペティションが題材でAIDEと呼ばれる機械学習に特化したエージェントを利用 エージェントがデータの前処理、モデルの学習、実験の評価を繰り返しおこなう AIDEはソリューションの生成器、評価者、選択器を繰り返し利用することで徐々にアルゴリズムを改良していく 実験の結果ではo1-previewを75のコンペの1回の試行(500stepまでか24h以内)で、平均16.9%でメダル圏内まで進めている AIDEの探索の図 各ノードに思考とコードがある MLE-benchの流れ Data Agents 10月21日 更新分
  53. AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML 既存のAutoMLシステムでは技術的な専門知識を必要とし、設定が複雑であるため、多くのユーザーが利用しにくい AutoML-Agentはデータ取得、前処理、モデル設計、ハイパーパラメータ調整、デプロイメントまでカバーしている

    各エージェントが図のように自己の役割を全うする 画像分類、テキスト分類、時系列予測など7つのタスク14のデータセットで評価 提案手法(赤)は成功率で、成功の基準はユーザーが設定した特定の制約や条件(例えば、推論時間が100ミリ秒以下、 精度が95%以上など)を満たした割合であり、かなり高い水準を維持している タスク成功率 Data Agents 10月21日 更新分
  54. DA-Code: Agent Data Science Code Generation Benchmark for Large Language

    Models データサイエンスのコード生成タスクのDA-Codeベンチマーク DA-エージェント • Docker上に構築された環境内で動作し、Bash、Python、SQL、 Terminateを行動空間に持つ • 標準出力、エラーメッセージ、タイムアウト、失敗成功などを応答する さまざまなLLMをDA-Codeベンチマークで評価した結果、現時点では30.5%の精度しか達成できていない エージェントフレームワーク(OpenDevin、AutoGen、X-Agentなど)と比較しても優れている ベンチマークの内訳 モデルごとのDA-Agentの性能比較 エージェント間の性能比較 Data Agents 10月21日 更新分
  55. Data Analysis in the Era of Generative AI 生成AIがデータ分析のプロセスにどう活用できるのか、人間とのインタラクションのあり方を考察した研究 データ分析のプロセスには、タスクの定式化、データの収集、探索的な分析、仮説の生成と検証、結果の報告が含まれる。

    生成AIがデータ分析でできること • 既存のデータから適切なデータを見つけ、DBやWebからのデータ抽出、データクレンジングや異常検出、データ統合 • ドメイン知識に基づく探索的分析や、タスクやデータに基づいた適切な統計的評価 • ライブラリやツールの深い理解不要で、可視化やテーブル、構造化データの生成 • 分析や仮説を検証し、生成されたインサイトを分析 • 対話的な意思決定支援、分析に基づく推薦、カスタマイズされたプレゼンテーションやダッシュボード生成 データ分析システムの設計上の注意 • ユーザーが自然言語で意図を伝えやすく、システムがそれを理解して適切な出力を生成できること • マルチモーダルな入力(テキスト、音声、ボタン)を組み合わせ、ユーザーが自然に意図を伝えられる仕組みがあること • 分析結果や視覚化は、ユーザーにとって理解しやすく、検証・修正可能であること • 生成AIが視覚化やレポート作成の提案を行い、ユーザーがその提案に基づいてさらに微調整を行えること 10月7日 更新分 Data Agents
  56. Navigating the Digital World as Humans Do: Universal Visual Grounding

    for GUI Agents SeeAct-Vは、環境を視覚的に観察し、直接ピクセルレベルでGUI操作を行うエージェント • HTMLやアクセシビリティツリーなどのテキストベースの情報を必要としない • GUI上のピクセル座標の指定はUgroundモデルが推定することで実行率を高める • UGroundは、10MのGUI要素と1.3Mのスクリーンショットから成る大規模なデータセットで訓練されている 確かに向上しているがまだ劇的な改善に至っていない Digital Agents 10月21日 更新分
  57. Agent S: An Open Agentic Framework that Uses Computers Like

    a Human Agent Sは、GUIを通じて自律的にPCとインタラクションし、複雑なデスクトップタスクを自動化する 外部知識や内部経験からタスクを計画し、サブタスクを実行する OSWorldおよびWindowsAgentArenaで評価しているが、全体的にgpt-4o単体より数%の改善だけ GUIの要素を正しく認識・操作する能力が乏しく、認識精度を上げる必要がある 反復的行動の防止や、行動の反省・改善を行う機能を強化し、エージェントの実行能力を向上させる必要がある Digital Agents 10月21日 更新分
  58. AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents

    AmazonからWebエージェントのAGENTOCCAMを提案 • 他のエージェントに比べて追加モジュールやサンプル、オフラインデータ、オンライン検索を使用せずに高い性能を実現 • 観察空間と行動空間の調整に力を入れている • 多くのWebエージェントは、Webページ上のすべての情報をそのまま観察対象とする • 観察のHTML要素をMarkdown形式に変換し、Webページをより短く、LLMが処理しやすい形式に変換 • ページ上で不必要なスクロールやタブ操作を削減し、重要な操作に集中できるようにする • branchとpruneという計画アクションを導入し、複数の選択肢を考慮しながらタスクを進める • 毎ページ工夫を施すため、時間はかかるが無駄な行動が減り結果的にタスクが早く終わる 行動空間の工夫 観察空間の工夫 Digital Agents 10月21日 更新分
  59. A Survey on Complex Tasks for Goal-Directed Interactive Agents 目標指向のインタラクティブエージェントのサーベイ

    タスクの目標は、環境の特定の状態に到達すること、または質問に回答することの2種類 ナビゲーションとオブジェクト操作 • 物理的またはシミュレーション環境でオブジェクトを操作し、目標を達成する デジタルアシスタント • ツールやAPIを使用してデジタルな環境でタスクを実行し、ユーザーを支援 GUIインタラクション • ウェブページやモバイルアプリのGUIと直接対話し、タスクを完了 コードインタープリタ • コードインタープリターを利用し、プログラムを実行したり、コードベースのタスクを完了 10月7日 更新分 Digital Agents
  60. MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

    Embodied エージェント向けの過去のマルチモーダルな軌跡データの検索手法を提案 • MLLMの検索器はタスク指示と現在の観察画像と検索対象の軌跡データを入力し選好度を推論する • 選好度の高い軌跡を選び、その軌跡からMLLMに重要なシーンを予測させ軌跡を要約させる 検索結果が表面的な画像の類似性だけでなく、タスクの成功に寄与する軌跡を検索でき、情報をコンパクトにす ることができる MLLMの学習には選好学習するため、各軌跡が寄与したかを評価する必要があるためコストは高い 関連度の高い過去軌跡をどう手に入れるかが肝になる Embodied Agents 10月21日 更新分
  61. Mars: Situated Inductive Reasoning in an Open-World Environment 人間のような帰納的推論がエージェントにできるかテストできるMars環境と手法を提案 帰納的推論に求められる二つの要素

    • 具体的な状況でその場にある情報や知識を利用して推論を行う状況性(situatedness) • 過去の経験から一般的で抽象的な法則や規則を導き出す抽象性(abstractiveness) Marsは既存環境のCrafterを改良し、地形や生存条件、タスクの依存関係などがランダムに変更され、エージェン トはその中でタスクを完了するために新しい知識を学び、それを適用する必要がある Induction from Reflectionは、過去の行動履歴からルールを導出し、スキルライブラリに管理する手法 スキルライブラリが蓄積されるにつれて、過去の経験を活かしたスコアは向上したが、28%に留まっている Embodied Agents 10月21日 更新分
  62. GenSim: A General Social Simulation Platform with Large Language Model

    based Agents LLエージェントベースのシミュレーションプラットフォームGenSim の提案 GenSimでは、10万のエージェントをサポートし、並列計算を活用して効率的なシミュレーションを実現 映画ウェブサイトにおけるユーザーの映画の評価シミュレーションを行い、異なる規模のエージェント数で結果 の変動を比較した エージェント数が32万や320万に増えると、ユーザー評価結果の変動が大幅に減少し、信頼性が向上した Gensimの応用例 • エージェント同士の就職市場での活動をシミュレーション • ユーザーの行動データをもとに商品やコンテンツの推薦を行う推薦システムをシミュレーション • エージェント同士が議論を行うグループディスカッションのシミュレーション • 有名な映画データセットを用いたユーザーのアイテム(映画)評価シミュレーション • 市民や政府関係者に設定し、都市のインフラ計画や政策の影響をシミュレーション • 教師や生徒役で教育方針の効果シミュレーション Multi Agent Systems 10月21日 更新分
  63. Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining マルチエージェント協調によるLLMの事前学習のデータ選択手法を提案 •

    既存手法(データの質の高い部分を選別する、複数のドメインからデータを混ぜる、モデルの性能に影響を与えるデータを 動的に選ぶ)を独立したエージェントとして扱う • 各エージェントの貢献度(各データの質のスコアの重みづけ)を動的に調整しながらデータを選択する • LLMエージェントでは全くない LLMの訓練の収束が加速し、複数のベンチマークにおいて従来の最先端手法と比較して最大10.5%の性能向上を達成 データセットの質のトレードオフ データのスコア基準 Multi Agent Systems 10月21日 更新分
  64. Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts

    MASによる自動プロンプト生成手法を提案 プロンプトの自動生成は3つのグループが連携し、反復的におこなわれる(右図) 1. 分析グループ: ユーザーの要求を解析し、必要なモジュールを選択する(左図) 2. 設計グループ: モジュールごとの設計を行い、プロンプトを生成する 3. テストグループ: 生成されたプロンプトを使用してLLMの性能を評価し、エージェント同士のディスカッション を通じてフィードバックを提供する Multi Agent Systems 10月7日 更新分
  65. RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance

    コード生成の精度を向上させるマルチエージェントフレームワークRGDを提案 ガイドエージェント • タスクの説明に基づいてコード生成のためのガイドを生成 • ガイド例「ユーザーの入力を解析し、適切な日付フォーマットに変換する。その後、Pythonのdatetimeモジュールを使用して曜日を 計算し、結果を返す関数を作成する。」 • メモリから関連する過去の成功事例を参照して、ガイドの品質を向上させる デバッグエージェント • ガイドエージェントによって生成されたガイドを基に、初期のコードを生成 • コードがすべてのテストケースに合格するまで、このプロセスは反復 フィードバックエージェント • 実行結果から失敗したテストケースと成功したテストケースを分析し、失敗の原因を特定して修正案を提供 Multi Agent Systems 10月7日 更新分
  66. From Facts to Insights: A Study on the Generation and

    Evaluation of Analytical Reports for Deciphering Earnings Calls 収支報告を活用した分析レポートの自動生成をマルチエージェントフレームワークで実現 • 投資家役が、レポートに含めるべき特定の情報や分析を指定する • 執筆者役が、初稿を作成し、他のエージェントがフィードバックを提供する • 分析者役が、過去の財務データを分析し、レポートにどのように組み込むかを指摘 • 心理学者役が、音声から経営陣の自信の度合いや不確実性を評価し指摘 • 編集者役が、レポートが目標とする聴衆に適しているかどうかを指摘 投資家役がレポートの最終版を承認するまで繰り返しレビューと改善をする 生成レポートは洞察に富み、情報が包括的で、将来的な展望に富んだ内容になる マルチエージェントワークフロー Multi Agent Systems 10月7日 更新分