Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 6月号 論文のアーカイブ

masatoto
June 30, 2024

Weekly AI Agents News! 6月号 論文のアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

June 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論⽂ 6⽉分 計画 • Octo-planner: On-device Language Model for Planner-Action

    Agents • FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents • Ask-before-Plan: Proactive Language Agents for Real-World Planning • CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration • SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals • NATURAL PLAN: Benchmarking LLMs on Natural Language Planning • Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models • Meta-Task Planning for Language Agents ⻑いコンテキスト理解 • Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA • LLM In-Context Recall is Prompt Dependent • Needle In A Multimodal Haystack • Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models • BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack • DrVideo: Document Retrieval Based Long Video Understanding • Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks • Are Long-LLMs A Necessity For Long-Context Tasks?
  2. 論⽂ 6⽉分 推論 • Test of Time: A Benchmark for

    Evaluating LLMs on Temporal Reasoning • Faithful Logical Reasoning via Symbolic Chain-of-Thought • Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization • From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⾃⼰修正 • When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs • Devilʼs Advocate: Anticipatory Reflection for LLM Agents • Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification プロンプト最適化 • 計画向け:REPROMPT: Planning by Automatic Prompt Engineering for Large Language Models Agents • ツール利⽤向け:AVATAR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval • ⾃⼰修正向け:MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL 学習 • SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching • HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning • RE-Adapt: Reverse Engineered Adaptation of Large Language Models
  3. 論⽂ 6⽉分 メモリ • AI-native Memory: A Pathway from LLMs

    Towards AGI • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models ツール利⽤ • igCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions • Tool Learning with Large Language Models: A Survey マルチモーダル理解 • CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs • Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 評価 • The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models • A Survey of Useful LLM Evaluation アライメント:Towards Scalable Automated Alignment of LLMs: A Survey キャッシュ:LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching 予測:Can Language Models Serve as Text-Based World Simulators? ⻑期対話:Hello Again! LLM-powered Personalized Agent for Long-term Dialogue ⾃⼰進化:AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments
  4. 論⽂ 6⽉分 Agent Framework • Symbolic Learning Enables Self-Evolving Agents

    • The Prompt Report: A Systematic Survey of Prompting Techniques • Open-Endedness is Essential for Artificial Superhuman Intelligence • Position: Foundation Agents as the Paradigm Shift for Decision Making • AGILE: A Novel Framework of LLM Agents • LLMs Meet Multimodal Generation and Editing: A Survey Multi Agent Systems • Autonomous Agents for Collaborative Task under Information Asymmetry • EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate • Scaling Large-Language-Model-based Multi-Agent Collaboration • Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • LLM-Based Cooperative Agents using Information Relevance and Plan Validation • Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting • A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor
  5. 論⽂ 6⽉分 Agentic AI Systems • LLMs Assist NLP Researchers:

    Critique Paper (Meta-)Reviewing • GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning Embodied Agents • A Survey on Vision-Language-Action Models for Embodied AI Computer Controlled Agents • CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only • Large Language Models Can Self-Improve At Web Agent Tasks
  6. Octo-planner: On-device Language Model for Planner-Action Agents • デバイス上で動くエージェントのため、計画と⾏動を別のモデルを採⽤し、この論⽂では計画モデルを提案 •

    ⾏動は従来のOctopus-v2を利⽤する。計画部分をphi-3 miniを微調整させたOcto-plannerを使う • 今は静的な計画のため、今後はアクションの観察に基づくリアルタイム計画更新を検討する 最初の計画を間違うと観察に基づき振り返れない Agent Capabilities:計画 7⽉1⽇ 更新分
  7. FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM- based Agents

    • LLMエージェントは、専⾨知識が必要なタスクにおいて計画的な幻覚を起こしやすい • 課題解決に外部知識をテキスト、コード、フローチャート形式で与えるが、有効性の⽐較評価がされていない • 初めてワークフローガイド計画を含むベンチマークを作成しタスクの評価をしフローの有効性を検証 • ワークフローで解けるタスクが多く載っておりオススメ 評価タスク フローチャート形式をMarkdownのMermaid記法で与える 他形式に⽐べ、ステップの⽋落や順序の誤り、ツールの使⽤に関するミスが減少 ツール呼び出し性能 Agent Capabilities:計画 7⽉1⽇ 更新分
  8. Ask-before-Plan: Proactive Language Agents for Real-World Planning • 旅⾏計画を⽴てる前に曖昧なユーザー指⽰に対して明確化のため再質問をするエージェントの提案 •

    提案⼿法CEPは、ユーザー指⽰の明確化の有無を予測し、ユーザーや環境から情報を集め、旅⾏計画を⽣成 • 明確化、実⾏、計画エージェントを⽤いるマルチエージェント⼿法 • 質問の明確化⽅法 • 対話履歴と環境の観測結果から明確化が必要かLLM分類 • 必要ならば質問⽂を⽣成 実験⽅法に疑問 GPT-3.5のCEPが気になる Agent Capabilities:計画 6⽉24⽇ 更新分
  9. CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration • TencentからLLMsの性能を向上させるための新しい階層的計画フレームワークの提案

    • グローバル計画エージェントは、問題の範囲を理解し、マクロレベルの計画を⽴てる • ローカル実⾏エージェントは、マクロ計画から詳細なサブタスクの説明を受け、実⾏レベルの計画を⽴てる • プロンプトが論⽂にあるので参考になる • 精度を⾒るとあまり改善していないがWebエージェント以外だと役⽴つフレームワークかもしれない Agent Capabilities:計画 6⽉24⽇ 更新分
  10. SELFGOAL: Your Language Agents Already Know How to Achieve High-level

    Goals • ⾼レベルの⽬標を達成するためにサブゴールをノードとするGoalTreeによる⾏動計画⼿法を提案 • エージェントはサブゴールを選び⾏動し、結果からサブゴールを新たに⽣成するか、別のサブゴールを選ぶのかを繰り返す • 公的財ゲーム、平均の2/3を当てるゲーム、第⼀価格オークション、交渉ゲームで評価 • ReAct, ADAPT, Reflextion, CLINと⽐べて最も⾼い精度を達成 GoalTreeの例 ずっと深く広く展開される Agent Capabilities:計画 6⽉17⽇ 更新分
  11. NATURAL PLAN: Benchmarking LLMs on Natural Language Planning • ⾃然⾔語での計画能⼒を評価するベンチマーク「NATURAL

    PLAN」の提案 • NATURAL PLANは、旅⾏計画、会議計画、カレンダーのスケジューリングの3つを含む • Google Flights、Google Maps、Google Calendarなどのツールの出⼒をもとに計画能⼒を評価 • 旅⾏計画:都市数、滞在⽇数などから具体的な⽇程と訪問順序を計画 • 都市の数が6都市以上で40%を切る。3都市だと80%の精度 • 会議計画:各友⼈の会える時間帯と移動時間を考慮し多くの友⼈と会う時間を計画 • 会う⼈数が4⼈〜10⼈だと50〜10%で、1〜3⼈だと90~70%の精度 • カレンダー予定合わせ:全員が参加可能な会議の時間を⾒つける • 参加者が少なく、予定候補⽇が少ない場合、60%の精度(参加者が2⼈で、1⽇のうちに会議を設定する) • 参加者が多く、予定候補⽇が多い場合、30%(例えば、参加者が7⼈で、5⽇間のうちに会議を設定する) Agent Capabilities:計画 6⽉17⽇ 更新分
  12. Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • ⾮同期計画タスクに向けたグラフベースな推論アルゴリズムPlan

    Like a Graph(PLaG) の提案 • ⾮同期計画とは、順序付き⾏動および並列可能な⾏動を含む複雑な計画タスク • 時間の合計、時間の⽐較、制約付き推論を正確に⾏う必要がある • PLaGは、プロンプトにグラフを仕込むか、⽣成時にグラフを作るか(Build a Graph)の2種類ある • PLaG(BaG)形式がタスクごとに新しいグラフを明⽰的に仕込む必要がなく最も精度が良い CoTよりも精度が⾼い ノードとエッジ数が増えると悪化 中央:BaG形式のプロンプト 右:明⽰的なグラフプロンプト お料理の⾮同期計画の例 Agent Capabilities:計画 6⽉10⽇ 更新分
  13. • 旅⾏計画という多段階の計画問題に焦点を当て、⼈間のような計画フレームワークを開発 • アウトライン⽣成(Outline Generation): 初期に⼤まかな計画を⽴てることでプロセスをガイドする • 情報収集(Information Collection): 詳細な計画を作成するために必要なデータを収集する

    • 計画作成(Plan Making): 収集した情報に基づいて詳細な計画を作成する A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models いきなり詳細化せず、⼤枠から詳細化 するのは良い筋かも Agent Capabilities:計画 6⽉3⽇ 更新分
  14. Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc

    QA • 複数のドキュメントにわたる質問応答(QA)を通じて評価をおこなう⻑い⽂脈ベンチマークLoong を提案 • タスクは精度が良い順にスポットライトロケーティング7割、推論の連鎖6割、⽐較5割、クラスタリング4割 • 複数のドキュメントを丸ごと渡してどんな推論タスクがどの程度できるのか理解できるのでオススメ ⾦額や会社の⽐較分析 ある条件でカテゴライズ 時系列表⽰ 引⽤リンク理解 証拠を⼀つ抽出 Agent Capabilities:⻑いコンテキスト理解 7⽉1⽇ 更新分
  15. LLM In-Context Recall is Prompt Dependent • ⻑いプロンプト(⼲し草)の中から回答に関する事実(針)を⾒つける⻑⽂理解タスク(needle-in-a-haystack) の評価 •

    プロンプトはsystem message, long text, questionで構成される • GPT-4-turbo-0125はプロンプト内に学習データと⽭盾する事実を⾒つけようとすると性能が低下する(San Francisco) • ただ同じ質問を事実の位置やコンテキスト⻑を変えながら評価しているため、必ずしも精度が⾼いから安⼼と は⾔えない。異なる複数の事実を様々な位置で⾒つけられるかが重要 架空の事実の評価 ⽭盾する事実 架空の事実 通常の事実 Agent Capabilities:⻑いコンテキスト理解 6⽉24⽇ 更新分
  16. Needle In A Multimodal Haystack • ⻑いマルチモーダル⽂書を理解する能⼒を体系的に評価するベンチマーク(MM-NIAH)の提案 • Multimodal Needle

    :⻑い⽂書に含まれるテキストと画像それぞれの事実(針)をもとに回答するタスク • 事実を1つ⾒つけて回答する検索、事実を列挙するカウント、複数の事実を繋げて答える推論を含む • 画像ニードルの性能はテキストニードルよりも難しくランダム選択以下 • Gemini 1.5 proでも難しく、画像の枚数が増えると性能が低下(性能結果は論⽂を⾒てください) Agent Capabilities:⻑いコンテキスト理解 タスクの例 6⽉24⽇ 更新分
  17. Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal

    Large Language Models • MLLMの⻑⽂脈理解能⼒を評価するためのベンチマーク • 1つの画像を2*2,8*8のサブ画像の繋ぎで表す。実験はM:画像数、N:分割数、K:針の数で⽐較 • タスクは、キャプションに該当する画像の座標(画像のインデックス、⾏、列)を答える • 精度は、ターゲット画像の存在有無、インデックスの正確さ、座標の正確さで評価 • GPT-4oやGPT-4Vは、針が存在しない場合でも誤って存在すると認識することが多い • M=10のとき、Gemini 1.5 proよりGPT-4oの⽅が全体的に5%ほど精度が⾼い • K>1のとき、GPT-4oよりGemini 1.5 proの⽅が全体的に10%ほど精度が⾼い Agent Capabilities:⻑いコンテキスト理解 Multimodal Needle in a Haystack タスク 6⽉24⽇ 更新分
  18. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

    • ⻑い⽂書に分散された事実に基づいて推論する能⼒を評価するベンチマーク • ⼀連の関連する事実を結びつける能⼒、個々の事実から⼀般的な結論を導く能⼒などを評価する • GPT-4のロングコンテキストの利⽤率の低さが⽰された Agent Capabilities:⻑いコンテキスト理解 事実の位置が中央にあるとタ スクの精度が下がる 6⽉24⽇ 更新分
  19. DrVideo: Document Retrieval Based Long Video Understanding • ⻑尺動画理解の問題を⻑⽂理解のタスクに変換するDrVideoを提案 •

    ⻑い動画をテキストベースの⻑⽂に変換し、初期の段階で重要なフレームを取得をおこなう • エージェントベースの反復ループを使⽤して、不⾜している情報を検索し、関連データを増強し、最終的な回 答を⾏う • EgoSchema(3分), MovieChat-1K(10分), LLama-Vid QA(60分以上)で、既存⼿法を上回る Agent Capabilities:⻑いコンテキスト理解 6⽉24⽇ 更新分
  20. Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

    • DeepMindからロングコンテキスト⾔語モデルが現実世界のアプリ(ドキュメント検索、RAG、SQL、Many shot ICL)で役⽴つか評価するベンチマーク • ベンチマークは既存のデータセットを利⽤し、⻑⽂になるよう⼯夫をしている • RAGなら参照数を増やす、SQLならテーブルデータをそのまま⼊れるなど • Gemini 1.5 Proは専⽤モデルと⽐較し、検索とRAGで均衡か優勢 • SQLの構造化データの処理には専⽤モデルの⽅が優勢 Agent Capabilities:⻑いコンテキスト理解 6⽉24⽇ 更新分
  21. Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

    • Corpus-in-Context Prompting (CiC)の提案もしている • プロンプト内に参照コンテンツ全体を挿⼊し、各参照コンテンツ(例:パッセージ、画像、⾳声)に⼀意の識 別⼦(ID)を付ける。Few-shotの解答例でも識別⼦を付与しておく。 Agent Capabilities:⻑いコンテキスト理解 6⽉24⽇ 更新分
  22. Chain of Agents: Large Language Models Collaborating on Long-Context Tasks

    • Google Cloud AI Researchから⻑い⽂脈タスクのための新しい⼿法「Chain of Agents」の提案 • 提案⼿法は、⻑⽂をチャンクに区切り、先頭から順番に会話メモリCUに回答に必要な情報を追記していき、⾛ 査したあと、蓄積された会話メモリと質問から最終回答を⾏う • マルチホップな質問応答、要約、コード⽣成でRAGやFull-Contextベースラインに対してclaudeシリーズは最 ⼤で10%の性能向上 🟦が会話メモリで情報を付け⾜す 後から過去を遡って、情報を付け⾜せない Agent Capabilities:⻑いコンテキスト理解 6⽉10⽇ 更新分
  23. Test of Time: A Benchmark for Evaluating LLMs on Temporal

    Reasoning • 時間的推論能⼒を評価するベンチマークTest of Time の提案 • GPT-4が多くのタスクで⾼い精度を⽰す⼀⽅、 特定のタスクではGemini 1.5 Proが優れている • DurationやScheduleなどの複雑なタスクでは、 全体的にモデルの精度が低い Agent Capabilities:推論 6⽉17⽇ 更新分
  24. • CoTによって⽣成される複数ステップをモデルの内部状態に内在させる学習⽅法を提案 • 明⽰的なCoT向けモデルから始め、徐々に中間ステップを削除し、モデルを微調整させる(Stepwise Internalization) • この⼿法により推論プロセスを簡素化しつつ⾼い性能を維持できる(Speed と Accのトレードオフはある) From

    Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⽣成範囲 • 掛け算の桁数を増やすと通常のCoTであれば精度は良いが遅い • 提案⼿法のICoT-SIは精度を維持しつつ、⾼速化できている 徐々に推論過程をモデルに学習していき、 最終的には問題から直接答えを⽣成できるようにする Agent Capabilities:推論 6⽉3⽇ 更新分
  25. When Can LLMs Actually Correct Their Own Mistakes? A Critical

    Survey of Self-Correction of LLMs • ⾃⼰修正(Self-correction)に関してサーベイし、LLMの⾃⼰修正が上⼿くいく条件を調査した論⽂ • 既存研究では、研究課題が明確に定義されておらず、実験デザインが不適切(正解例を使うなど)なことが多い • ⾃⼰修正が⼀般的なタスクで成功する結果はほとんどない • 信頼できる外部フィードバックを使⽤するタスクでは⾃⼰修正が効果的である • ファインチューニングは特定のタスクで⾃⼰修正を可能にする Agent Capabilities:⾃⼰修正 6⽉10⽇ 更新分
  26. • DeepMindから複雑なタスクを解決する際の⼀貫性と適応性を向上させる新たな内省⽅法を提案 • 複雑なタスクは実⾏途中で計画変更を強いられるが、その頻度が多いとエージェントの効率性が低下する課題 • 3つの内省メカニズムを提案し、Webタスクで試⾏回数や計画の修正回数を45%削減 • 予期的内省(Anticipatory Reflection):エージェントの⾏動の前に失敗の可能性を予測し、代替⾏動を考える •

    ⾏動後の評価とバックトラッキング:⾏動後に結果を評価し、必要に応じて戻って代替⾏動を実⾏する • 計画の改訂(Plan Revision):計画完了後に包括的なレビューを⾏い、次回の試⾏のための戦略を改善する Devilʼs Advocate: Anticipatory Reflection for LLM Agents ② 初期⾏動が失敗した場合の ⾏動を事前に内省する ① 計画の初期⾏動 ③ 初期⾏動の結果を得て 失敗なら戻る ④ 代替案を実⾏する Agent Capabilities:⾃⼰修正 6⽉3⽇ 更新分
  27. REPROMPT: Planning by Automatic Prompt Engineering for Large Language Models

    Agents • エージェントの試⾏履歴を⽤いた⾃動プロンプトエンジニアリング⼿法を提案 • ReAct、Reflextionで訓練⽤の試⾏履歴を貯めて、特定の外れ値に依存させないため、⼀括で失敗原因の要約をする • 補⾜:理想は教師軌跡を使って差分をLoss計算に使⽤したいが、⽤意が難しいので上記⽅法をとっている • 最適化のときは要約から解決策を複数⽣成し、最も有望な解決策を選び、元のプロンプトにどう差し込むか⽣成させる 5回修正した後のプロンプト(⻘が追加分) 5回修正すると精度は確かに向上している 疑似コード Agent Capabilities:プロンプト最適化 6⽉24⽇ 更新分
  28. AVATAR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval • エージェント開発におけるプロンプトは多くの⼿作業と試⾏錯誤が必要で部分最適な恐れがある

    • ツール利⽤に関するプロンプト最適化⼿法を提案。その後は同じプロンプトを継続利⽤する 1. 最適化ではバッチ単位でQAペアを現在のプロンプトを使って⾏動⽣成 2. 実⾏結果の性能の閾値からPos/Negのラベルを付与 3. Pos/Negを10サンプルずつLLMの推論により⽐較分析とプロンプトの改善案を⽣成 4. 改善後のプロンプトをもとにまたバッチ単位で最適化 プロンプト改善のイテレーションと性能 提案⼿法 Agent Capabilities:プロンプト最適化 6⽉24⽇ 更新分
  29. MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL • MicrosoftからText-to-SQLの⾃⼰修正のためのガイドラインを⾃動⽣成するマルチエージェント⼿法の提案 •

    提案⼿法はマネージャー、修正、フィードバックの3つのエージェントを⽤いる • 専⾨家の作成したガイドラインを上回る性能を⽰し、⾃⼰修正の解釈可能性を向上 Agent Capabilities:プロンプト最適化 6⽉24⽇ 更新分
  30. SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

    • SELF-TUNINGは、モデルのファインチューニングの⼀環で、新しい知識を効率的に取得し、既存の知識を保 持するための⼿法 • 3ステージあり、stage1で知識の獲得⽅法をself-teachingで学習し、stage2から新しい知識の獲得と古い知識 の忘却を防ぐ学習が始まり、stage3では最新のドキュメントについて知識をより深める学習をおこなう • 新しい情報に対しては特に知識の暗記、抽出、推論能⼒が向上し、古い情報に対しても安定して⾼いパフォー マンスを維持している 知識の獲得⽅法 以下のタスクを学習する 暗記 ⽂書の次トークン予測 理解 タイトル要約、重要ハイライト、NLI ⾃⼰反省 レクチャー、キーワードの説明、⽳埋め、多肢 選択、⽂の完成 Agent Capabilities:学習 6⽉17⽇ 更新分
  31. HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning •

    数値、表形式、知識含むMulti-Step Reasoningを解決するためのオープンソースのLLMエージェントの提案 • ツール選択とサブタスクを⽣成するGeneraterモデルとツール実⾏のActionモデルを異なるモデルで学習させて実現 • 学習ステップ • 教師モデルを⽤いてFSLで複数のツールを利⽤する軌跡を作成し、各モジュールの教師データ⽤に加⼯ • 各ツールモデルと⾏動選択モデルをLlama3-8Bなど異なるモデルで微調整 利⽤可能なツール ステップごとに⾏動選択とツール実⾏をぐるぐる回す マルチステップのステップ2とステップ3の詳細結果 6⽉17⽇ 更新分 Agent Capabilities:学習
  32. AI-native Memory: A Pathway from LLMs Towards AGI • LLMに⻑いコンテキストから関連情報を⾒つけ出し、同時に複雑な推論を⾏うことが⾮常に難しい

    • LLMをプロセッサ、コンテキストをRAM、そしてメモリをディスクとして機能させるシステムの構築を提案 • LLMが⽣データから得られる重要な結論をメモリに保存し、クエリ時に活⽤することで、効率的かつ効果的な 情報処理と推論を可能にする • L1(⾃然⾔語メモリ):ユーザーに関する情報を⾃然⾔語形式(嗜好や所属、タグ、要約)で保存 • L2(AIネイティブメモリ):個⼈の興味⾏動などの予測につながる個⼈⾔語モデルをメモリとする • AGIには⾃然語形式のメモリではなく、個⼈⾔語モデルが必要だという主張 • ユーザーごとにパーソナライズされたメモリ(LPM:Large Personal Model)を持つことで、ユーザーの過去 の⾏動や好みに基づいた個別化された体験やサービスを提供できるらしい Large Personal Model Agent ⾃然⾔語メモリ 趣味、嗜好、関係性、過去の会話 彼はXXがしたいと思う Agent Capabilities:メモリ 7⽉1⽇ 更新分
  33. Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models •

    Buffer of Thoughts (BoT):過去の問題解決で得た⾼次の思考テンプレをバッファから取得し活⽤する推論⽅法 • 類似テンプレがない場合、新規タスクとしてデフォルト思考テンプレが利⽤される • 新規タスクの場合、蒸留プロンプトによりテンプレに変換され、過去のテンプレと類似してなければメタバッ ファに追加 ⾼次の思考テンプレートの例 類似テンプレがなくともバッファにテンプレを追 加することで精度が徐々によくなる仕組み Agent Capabilities:メモリ 6⽉10⽇ 更新分
  34. BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex

    Instructions • Pythonのライブラリの関数を正しく呼び出し使えるか評価するプログラミングタスクのベンチマークを提案 • タスクはdocstringsが提供され、コード⽣成し、 5つ程度のテストケースの合格数で評価 • LLMsはまだライブラリの関数を正確に使⽤する能⼒に⽋けており、⼈間の性能97%に対して最⼤60%のスコア しか達成できなかった 77 44 31 30 10 8 5 281 128 63 60 20 16 10 Agent Capabilities:ツール利⽤ 7⽉1⽇ 更新分
  35. • ツール学習のサーベイ論⽂ • ツール学習とは、LLMが外部ツールを使⽤して複雑な問題を解決する能⼒を強化する⽅法 • なぜツール学習が必要なのか • 知識獲得の向上(検索エンジン、DB) • 専⾨知識の強化(計算、プログラミング)

    • ⾃動化と効率化(タスク管理、プロジェクト管理) • インタラクションの向上(⾳声認識や画像認識、多⾔語翻訳) • 解釈性とユーザー信頼の向上(意思決定プロセスの透明性) • 堅牢性と適応性の向上(ユーザー⼊⼒の変動に対する安定性) • どのようにツール学習をおこなうのか • ツール学習⽅法は、主に以下の4つのステージに分けられる • タスク計画 (Task Planning) • ツール選択 (Tool Selection) • ツール呼び出し (Tool Calling) • 応答⽣成 (Response Generation) Tool Learning with Large Language Models: A Survey Agent Capabilities:ツール利⽤ 6⽉3⽇ 更新分
  36. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in

    Video Analysis • マルチモーダル⾔語モデルの動画分析タスクのベンチマーク • 合計900本の動画、713の字幕、869の⾳声ファイル、6ジャンル • 動画の尺:Shortは平均80秒、 Mediumは平均520秒、Longは平均2471秒 • Gemini 1.5 proが最も精度⾼い。字幕があると更に精度向上。⾳声があると精度が下がる。 Agent Capabilities:動画理解 6⽉10⽇ 更新分
  37. CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

    • MLLMの性能のうち科学論⽂や財務報告書の図表の理解に注⽬し、arXiv論⽂から収集したデータセットを作成 • 既存のデータセットは、過度に単純化された図表とテンプレートベースの質問だった • GPT-4oは推論的質問に対して47.1%、記述的質問に対して84.5%の精度 記述的質問:基本的な情報抽出 例「サブプロットの⾏2列1において、線は交差して いますか?」 推論的質問:図表内の複数の要素を関連付けて分析 例「4⽉の直後に咳、発熱、病気に関するGoogle検 索の急増が⾒られる国の名前は何ですか?」 Agent Capabilities:マルチモーダル理解 7⽉1⽇ 更新分
  38. The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of

    Language Models with Language Models • ⾔語モデルの9つの主要能⼒を77のタスクにわたって詳細に評価するベンチマーク • 103のLLMを5つの評価⽤LLMを使⽤して評価 Easy Hard Agent Capabilities:評価 6⽉17⽇ 更新分
  39. A Survey of Useful LLM Evaluation • LLMの評価ベンチマークを紹介する論⽂ • LLMの評価を2つのステージ「コア能⼒」と「エージェント」に分けている

    • エージェントはタスク成功率の評価が多く、ステップごとの詳細な評価が⽋けている • ベンチマークが知りたくなったらリポジトリを⾒ると良さそう Agent Capabilities:評価 6⽉10⽇ 更新分
  40. Towards Scalable Automated Alignment of LLMs: A Survey • LLMのスケーラブルな⾃動アライメントに関するサーベイ

    • アライメントの代表データ形式である指⽰-応答ペアおよび選好データの構築プロセスは、⾮常に⾼価で注意深 い⼈間のアノテーションを必要とし、スケーラビリティの要求を満たせない • ⾃動アライメントの既存⼿法をアライメント信号に基づいて4つのカテゴリに分類 1. 帰納バイアス(Inductive Bias) 2. ⾏動模倣(Behavior Imitation) 3. モデルフィードバック(Model Feedback) 4. 環境フィードバック(Environment Feedback) Agent Capabilities:アライメント 6⽉10⽇ 更新分
  41. Towards Scalable Automated Alignment of LLMs: A Survey 1. 帰納バイアスを活⽤したアライメント

    • LLMの帰納バイアスを活⽤ • ⼤規模データで学習したTransformerには内在的な特徴がある 1. 出⼒の不確実性を定量化する能⼒ 2. ⾃⾝の出⼒を評価、批評、改善する能⼒ 3. ⽂脈内学習する能⼒ • これらを活⽤することで追加の監督信号なしにスケーラブルなアライメントが実現できる • 複数のLLMの構成や組織化から⽣じるバイアスを活⽤ 1. 複雑な問題に対処するためのタスク分解(Task Decomposition) 2. LLMが⾃分⾃⾝と対戦することで⾃⼰改善する(Self-play) • モデルが⾃⼰改善を⾏い、より⾼精度なアライメントを達成するために利⽤する • エージェントとしてのアライメントはチャットボットより難しい • ⾏動、環境のダイナミクス、⾃⼰制約を考慮するため Agent Capabilities:アライメント 6⽉10⽇ 更新分
  42. Towards Scalable Automated Alignment of LLMs: A Survey 2. ⾏動模倣を活⽤したアライメント

    • 既にアライメントされたモデルの⾏動を模倣することでターゲットモデルをアライメントする • 模倣先と模倣元の関係で2分類される • 強から弱への蒸留(Strong-to-Weak Distillation) • 既に⾼いアライメントが達成されている強⼒なモデルを教師モデルとして使⽤する • レスポンスガイド蒸留:ターゲットモデルが教師モデルの指⽰に対する応答を直接学習する • 選好ガイド蒸留:教師モデルが⽣成した選好データを⽤いてターゲットモデルをアライメントする • 弱から強へのアライメント(Weak-to-Strong Alignment) • AIの能⼒が⼈間を徐々に超えていく中で、強から弱が難しい場合に弱いモデルを教師モデルにする • 簡単なタスクから学んだ⾏動を基に、より難しいタスクでの性能を向上させるなど • まだ研究は理論含め初期段階 Agent Capabilities:アライメント 6⽉10⽇ 更新分
  43. Towards Scalable Automated Alignment of LLMs: A Survey 3. モデルフィードバックを活⽤したアライメント

    • 他のモデルからのフィードバックを利⽤してターゲットモデルのアライメントをする • フィードバックの形式は3種類 • スカラー信号 • スカラー信号は、強化学習で利⽤され、LLMの応答を⼊⼒として評価スコアを⽣成する報酬モデルから⽣成する • バイナリ信号 • バイナリ信号は、数学的推論タスクで使⽤され、結果の正誤を判定する • テキスト信号 • テキスト信号は、他のLLMによるフィードバックや⾃⼰批評に利⽤される Agent Capabilities:アライメント 6⽉10⽇ 更新分
  44. Towards Scalable Automated Alignment of LLMs: A Survey 4. 環境フィードバックを活⽤したアライメント

    • 既存環境から⾃動的にアライメント信号やフィードバックを取得し、ターゲットモデルのアライメントを⾏う • 社会的相互作⽤ • SNSのユーザーの反応から社会的規範、⼈間からの対話評価などの信号 • ⼈間の集団知能 • 多数決の結果、原則やガイドライン、クラウドソーシングによるタスクの正確性や有⽤性の信号 • ツールの実⾏フィードバック • 外部ツールの実⾏結果、評価、外部ツールがタスクを成功または失敗した際の信号 • 具現化された環境 • 物理的または仮想的な環境内でのエージェントの⾏動とその結果、⾏動に応じた環境の状態遷移に関するデータ Agent Capabilities:アライメント 6⽉10⽇ 更新分
  45. LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching •

    キャッシュ操作をツールとして定義し、LLMが直接管理することでデータアクセスを効率化する⽅法の提案 • ⼤規模な地理空間プラットフォームで評価を⾏い、タスク完了時間を平均で1.24倍⾼速化し、出⼒の品質や エージェントの性能には影響がない • キャッシュ管理⽅法による性能差はある。データの再利⽤率が低いと速度改善は限定的 キャッシュ管理⽅法による性能差 キャッシュによる速度改善と精度⽐較 Agent Capabilities:キャッシュ 6⽉17⽇ 更新分
  46. Can Language Models Serve as Text-Based World Simulators? • ⾔語モデルが世界の状態を正確にシミュレートできるか検証

    • テキストベースのゲームシミュレータとしてGPT-4をテストし、その性能を評価 • ユーザーが取る⾏動による直接的な状態変化の予測は得意(77.1%) • 環境による状態変化は苦⼿(49.7%) • 環境の⾃然な変化や時間経過に伴う変化を正確にモデル化するのが難しい • ゲーム進⾏(スコア、ゲームオーバーの状態、ゲームの勝敗)の予測は得意(92.1%) • ルールの有無が精度に⼤きく影響 • ⼈間が記述したルールやLLMが⽣成したルールが存在する場合、予測精度が向上する • 全体の状態予測と差分予測 • 全体予測は全てのオブジェクトで、差分予測は⾏動や環境の変化で⽣まれた差分のみ予測する • 動的な状態変化においては全体の状態予測が優れており、静的な状態変化においては差分予測が効果的 アクションによって直接変化する次の状態予測 環境要因によって変化する次の状態予測 次の報酬とゲームの完了状態予測 Agent Capabilities:予測 6⽉17⽇ 更新分
  47. Hello Again! LLM-powered Personalized Agent for Long-term Dialogue • ユーザーとの⻑期的な対話やパーソナライズされた対話のニーズを満たす⼿法を提案

    • イベントモジュール:⻑期および短期のメモリバンクを⽤いて、過去のセッションのイベントを要約し記憶 • ペルソナモジュール:ユーザーとエージェントのペルソナを動的に抽出し、⻑期的に維持 • 応答⽣成モジュール:取得されたメモリとペルソナ情報を統合して、適切な応答を⽣成 • 最⼤5つのセッションを含む50ターンに及ぶ⽇常対話で検証し良い性能を⽰した イベントとペルソナを管理し、過去の対話履歴から ⼀貫した対話を提供する Agent Capabilities:⻑期対話 提案フレームワーク 6⽉17⽇ 更新分
  48. AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments •

    多様な環境で⾃⼰進化するLLMエージェントを構築するためのフレームワーク「AGENTGYM」を提案 • LLMを⽅策とし、事前データで模倣学習する。その後、様々な環境(マルチタスク)で⽅策に従い軌跡を集め、 報酬に基づき⽅策の教師あり学習をおこなう。そしてまた環境で軌跡を集めることを繰り返し⾃⼰進化をする ⾏動模倣と⾃⼰進化 異なるタスク(⾊の違い)でイテレーションが増えると精度が改善している 学習データを初期の軌跡から全て(実線)と直近のみ(破線)かで精度の上がり幅が違う Agent Capabilities:⾃⼰進化 6⽉10⽇ 更新分
  49. Symbolic Learning Enables Self-Evolving Agents • ニューラルネットの学習アルゴリズムと対応づけてエージェントのフローを更新するフレームワークを提案 • PromptOptimizer: プロンプトの各コンポーネント(タスクの説明、少数ショットの例、原則、出⼒形式の制御)の最適化

    • ToolOptimizer: ツールの編集、削除、新しいツールの実装を⾏う • PipelineOptimizer: ツールや各プロンプトとその接続を含むエージェントパイプライン全体の最適化 • 損失値はプロンプトでLLMに正解データとの近さをスカラー値とテキストで⽣成させる • 最適化なのかは謎だが、エージェント構築とNN構築の開発モチベは似ているのは分かる Agent Framework 7⽉1⽇ 更新分
  50. The Prompt Report: A Systematic Survey of Prompting Techniques •

    プロンプト技術の体系的な調査 • 4.1節エージェント技術とは、LLMが外部ツールや他のAIモデルと連携して動作する技術のこと • ツール使⽤エージェント (Tool Use Agents) • インターネットブラウジング、計算機使⽤ • コード⽣成エージェント (Code-Generation Agents) • コードの⾃動⽣成、補完 PAL、ToRA • 観察ベースのエージェント (Observation-Based Agents) • 環境の観察をプロンプトに⼊れる ReAct、Reflextion • 情報検索強化⽣成 (Retrieval Augmented Generation, RAG) • データベース検索、質問応答 Agent Framework 6⽉17⽇ 更新分
  51. Open-Endedness is Essential for Artificial Superhuman Intelligence • ⼈⼯超⼈知能(ASI:Artificial Superhuman

    Intelligence)の実現にはオープンエンド性(open-endedness)が 求められることを主張 • ⼈⼯超⼈知能とは、⼈間の能⼒をはるかに超える知能を持つAIシステムのこと • オープンエンド性とは、システムが観察者に対して常に新規で学習可能な成果物を継続的に⽣成する能⼒ • オープンエンド基盤モデルは、強化学習や⾃⼰改善、タスク⽣成、進化アルゴリズムが必要になるかもしれない オープンエンド性の例 様々な⾶⾏機の設計書を考える。 観察者によって新規性があるか学習可能かは分かれる。 ⼈間が新規に感じても学習可能でないと、成果物を理解できず、 ⼿に追えない存在になる。 Agent Framework 6⽉10⽇ 更新分
  52. Position: Foundation Agents as the Paradigm Shift for Decision Making

    • 基盤エージェントの概念を提唱し、そのロードマップを⽰した論⽂ 基盤エージェントに期待する特徴 • 状態・⾏動空間、フィードバック信号(例:報酬や⽬標)、環境ダイナミクスを統⼀的に表現する • ロボティクスやゲームプレイから医療に⾄るまで、タスクやドメインを超えた統⼀的な⽅策の仕組みを持つ • ⻑期的な推論が必要なシナリオや部分観測可能な環境での計画能⼒を持つ 実現⽅法:以下の図を段階的に達成することが求められる Agent Framework 6⽉3⽇ 更新分
  53. AGILE: A Novel Framework of LLM Agents • 強化学習を⽤いてエンドツーエンドで最適化するAGILEエージェントの提案 •

    AGILEエージェントは複雑な質問応答タスクを効果的に学習し、適応できる • 訓練データとしてセッションレベルの軌跡を⽣成し、各セッションの軌跡は、[GetUserQuestion]と [RetrieveMemory]から始まり、各QAタイプに応じた関数を続けて実⾏する メモリ、ツール結果、ユーザーの質問から LLM(⽅策) が⽣成する⾏動トークン⼀覧 Agent Framework 6⽉3⽇ 更新分
  54. LLMs Meet Multimodal Generation and Editing: A Survey • ここ2年で複数のモダリティの編集と

    ⽣成機能がエージェントに統合され ている • 最近は指⽰チューニングが多い • 指⽰チューニングは特定のタスクや アプリケーションに最適化されるた め、より⾼い精度を達成できる Agent Framework 6⽉3⽇ 更新分
  55. Autonomous Agents for Collaborative Task under Information Asymmetry • 情報⾮対称性下での協調タスクを遂⾏するための⾃律エージェントシステム(iAgents)を提案

    • 同じ情報が全員に共有される設定が多いが、現実世界ではビジネスの交渉、災害対応、SNSではありえない • iAgentsは、InfoNavという互いに計画し、情報収集し、不明確な部分をお互いに伝えて合意形成をすることで、 エージェント間の効果的な情報交換を実現 • 全ての情報を⼀元的に管理するのではなく、エージェントが個別に情報を持ち、必要に応じて交換するのはプ ライバシーの保護に繋がる Multi Agent Systems 7⽉1⽇ 更新分
  56. EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • Microsoft

    から進化的アルゴリズムを⽤いて専⾨的なマルチエージェントを⽣成する⼿法を提案 • EVOAGENTは任意の既存のエージェントフレームワーク(MetaGPT、Camel、AutoGen、Generative Agents)に適⽤可能 • 複雑なタスクを解くために利⽤する 以下をT世代まで繰り返す 1. 初期化 スキルと役割のプロンプトを持つエージェントを⽤意する 2. 交叉&突然変異 初期エージェントの履歴からどのスキルや設定を改良すべきか チェックし、⼦エージェントプロンプトをN個⽣成 3. 淘汰 ⽣成された⼦エージェントプロンプトの中から、最適なエー ジェントを選ぶ。選択は、品質チェックプロンプトを⽤いる。 4. 結果の更新 ⼦エージェントプロンプトで⽣成された結果を前の世代の結果 と統合するよう⽣成 EVOAGENTアルゴリズム Multi Agent Systems 7⽉1⽇ 更新分
  57. MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model

    Collaborations via Debate • 1つのエージェントが敵対者として設定され、他のエージェントを誤った回答に説得することを⽬的とする • 3つのエージェントを使⽤し、3ラウンドでディベートを実施 • 敵対者がいると多数決精度が10〜40%低下。エージェント数とラウンド数を増やしても精度低下を防げない • GPT-4oは他のモデルと⽐べて敵対者に対して最も耐性が⾼い。精度の悪化が⼩さく、敵対者との合意も少ない • GPT-3.5とLlamaは、敵対者の影響を強く受け、精度の悪化が⼤きく、敵対者との合意も増加 Multi Agent Systems 7⽉1⽇ 更新分
  58. Scaling Large-Language-Model-based Multi-Agent Collaboration • 複数のエージェントが協⼒してタスクを解決するマルチエージェント協⼒ネットワーク(MACNET)を提案 • 全ノードがタスクの初期回答をもち、連結先に回答を共有し、フィードバックをもらいメモリに保存する • 全ての連結ノードからフィードバックを受け取ると⾃⾝の回答を更新する(ある種の同期をしていく)

    • これをK回繰り返し、メモリにある情報から最終回答する • スモールワールド特性を持つトポロジーが優れた性能を⽰し、密度が⾼いほど性能が向上する傾向がある • エージェント数の増加に伴い、解決策の質がロジスティック成⻑パターンに従うことが確認された Multi Agent Systems 6⽉17⽇ 更新分
  59. Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • マルチモーダルおよびマルチエージェント

    システムと合理性の関係を構築 • 論⽂では合理性は以下の4つの要件を満たす こと • 接地 (Grounding):エージェントの意思決 定が物理的および事実上の現実に基づいて いる必要がある • 選好の秩序付け (Orderability of Preferences) :エージェントは選択肢を⽐ 較し、現在の状態に基づいて最も好ましい 選択肢を選ぶ能⼒をもつ • 無関係な⽂脈からの独⽴性 (Independence from Irrelevant Context):エージェントは 無関係な情報を識別し、それを無視する能 ⼒を持つ • 不変性 (Invariance):エージェントの選好 は、決定問題の同等な表現間で⼀貫してい る必要がある Multi Agent Systems 6⽉10⽇ 更新分
  60. LLM experiments with simulation: Large Language Model Multi-Agent System for

    Process Simulation Parametrization in Digital Twins • デジタルツインのシミュレーションパラメータを⾃動決定するLLMマルチエージェントシステムの設計 • 観察、推論、決定エージェントは、デジタルツインからリアルタイムデータを収集し、重要な観察データを識 別、データを解析し、パラメータを⽣成 • 専⾨知識が少ないユーザーでも効果的にデジタルツインシステムを操作できるようになり、システムのアクセ シビリティと効率が向上 MAS経由でシミュレーションを実⾏ Multi Agent Systems 6⽉3⽇ 更新分
  61. A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor

    • LLMを活⽤したマルチエージェント製造システムを提案 • システムは製造現場のリアルタイムデータと⽣産タスク情報を受け取り、最適なスケジューリングと⽣産機の選択 を出⼒する • リアルタイムに機械割り当ての交渉をおこなえるため、多品種少量⽣産の要求に対応しやすい • Thinking Agent (TA)は、現場の情報から最適な機械を選択する • Decision Agent (DA)はTAの分析結果を基に最終的な意思決定を⾏う 各機械に分散させ 458stepの計画になる 最も負荷が少ない機械を選択す ると678stepになる 6⽉3⽇ 更新分 Multi Agent Systems
  62. LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing • LLMが論⽂のレビューおよびメタレビューをどの程度効果的に⾏えるかを分析 •

    LLMs as Reviewers:⼈間のレビューとLLMが⽣成したレビューの質を⽐較する • LLMは特に論⽂の範囲外の実験や分析を提案する傾向が強く、専⾨知識を要する批評はエラーが少ない • LLMs as Metareviewers:LLMが個々のレビュー内の問題を特定できるかどうかを評価する • 形式的な間違いや⼀般的な誤解を特定するのには効果的、多くのレビュワーの⽋陥を指摘できる • 表⾯的なレビューや、誤った専⾨知識に基づく指摘が多い レビューのエラー分析 Agentic AI Systems 7⽉1⽇ 更新分
  63. GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled

    Reasoning • GuardAgentが常にバックグラウンドで動作し、LLMエージェントの⼊⼒と出⼒を監視して、ユーザーが提供す る安全性とプライバシーに関するガイドラインや規制を遵守しているか判定する • ヘルスケアの患者データやプライバシー保護、Webエージェントの未成年保護、⾦融の不正取引やアクセスの 防⽌に利⽤する • コードベースな判定は、⾃然⾔語によるガードレールに⽐べて、より正確かつ具体的なルールを記述できる Agentic AI Systems 6⽉24⽇ 更新分
  64. A Survey on Vision-Language-Action Models for Embodied AI • Vision-language-action

    models (VLAs) は、⾔語指⽰に基づいて⾏動を予測し、環境でのタスクを実⾏する能 ⼒を持つ。ロボティクスの分野で重要な役割を果たす • VLAモデルは、低レベルの制御ポリシーとして動作し、環境に基づいて⾏動を⽣成するか、⾼レベルのタスク プランナーとして動作し、⻑期のタスクを実⾏可能なサブタスクに分解することができる 視覚と⾔語をインプットし⾏動を⽣成する機構が増えている 6⽉3⽇ 更新分 Embodied Agents
  65. CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with

    Front-End UI Only • サムスンからHTML/DOMに依存せず、スクショのみからタスクを解決するエージェントの提案 • ウェブ環境外のアプリにも適⽤可能であり、より広範なRPAやデスクトップタスクに対応できる • Visual ObserverではYOLOv8モデルを微調整してUI要素を検出し、Pix2Structモデルを使⽤して詳細な属性を抽 出する。⾔語モデルにクリックやマウス操作などの⾏動実⾏計画を⽣成させる。 CAAP Prompter ⾏動実⾏計画を⽣成させるプロンプト アーキテクチャの全体像 CAAP プロンプトのコンポーネント評価 Computer Controlled Agents 6⽉17⽇ 更新分
  66. Large Language Models Can Self-Improve At Web Agent Tasks •

    Webエージェントのタスクで⾃⼰改善する枠組みを提案 1. ベースモデルの実⾏: ベースモデルがタスクを実⾏し、初期データを収集 2. データのフィルタリング: ⾃⼰批評や環境のエラーチェックを通じて、低品質なデータを除外 3. 新しいタスクの⽣成: IDの例をもとに、OODの新しいタスクを⽣成 4. ファインチューニング: 構築したデータセットを使⽤してモデルをファインチューニング • モデルは⾃⾝の⽣成したデータを活⽤し、逐次的に学習と改善を繰り返すことで⾃⼰改善を実現 • モデルは反復的に⾃⼰改善できるか?ノー。先⾏研究と⼀致して2度⽬は1度⽬より精度が落ちる 最も良いのはBタイプの学習 Computer Controlled Agents 6⽉3⽇ 更新分