Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(論文読み)MMAU: 「LLMエージェントの評価」に特化したベンチマーク

ymgc
August 18, 2024

(論文読み)MMAU: 「LLMエージェントの評価」に特化したベンチマーク

このスライドは、2024.7.18 に公開された以下論文の輪読会用スライドです。
https://arxiv.org/abs/2407.18961

ymgc

August 18, 2024
Tweet

More Decks by ymgc

Other Decks in Technology

Transcript

  1. LLM論文 輪読会 MMAU: A Holistic Benchmark of Agent Capabilities Across

    Diverse Domains https://arxiv.org/abs/2407.18961 1
  2. 目次 1.Introduction ▶ 2.Related Work ▶ 3.The MMAU Benchmark ▶

    4.Evaluation ▶ 5.Analysis and Discussion ▶ 6.Conclusion ▶ 2
  3. 1. Introduction (2/2) MMAUベンチマークの特徴: ▶ 5つの本質的な能力を評価: 理解、推論、計画、問題解決、自己修正 - 5つのドメインにわたる評価: ツール使用、DAG

    QA、データサイエンス&機械学習コーディング、コンテストレベルのプログラミ ング、数学 - 20の綿密に設計されたタスクを含み、3000以上の異なるプロンプトを網羅 - 静的なデータセットを使用し、環境の不安定性を排除 - 複雑な環境設定を不要とし、評価の再現性を向上 - 能力別の詳細な評価により、モデルの長所と短所を明確に識別可能 - 5
  4. 2. Related Work (1/3) LLMベースの汎用エージェントフレームワークの発展: ▶ Auto-GPT: 目標を実行可能なステップに分解し、補助ツールを使用 - AutoGen:

    複数エージェント間の自律的な協調を実現 - LangChain: 実用的なアプリケーションを容易に構築 - Camel: 制御とカスタマイズを重視 - AGENTS: 動的に特化したエージェントを生成 - AutoAgents, XAgent: 複雑なタスクを効果的に管理 - 6
  5. 2. Related Work (2/3) エージェントベンチマークの多様化: ▶ 機能呼び出し: Berkeley Function Calling

    Leaderboard, NexusRaven V2, ToolBench - ウェブ環境操作: Webshop, WebArena, Mind2Web, MiniWoB++ - UIオートメーション: PixelHelp, MetaGUI, MoTIF, AITW, OmniACT - ソフトウェアエンジニアリング: SWE-bench - 包括的ベンチマーク: - AgentBench: コーディング、ゲーム、数学タスクを統合 - AgentBoard: ウェブ閲覧、ツール使用、具現化AI、ゲームドメインを評価 - 7
  6. 2. Related Work (3/3) MMAUの独自性: ▶ 基本的な能力の分離評価に焦点 - より広範な能力セットを評価(理解、推論、計画、問題解決、自己修正) -

    静的データセットを使用し、評価の簡素化と再現性の向上を実現 - 64の科目にわたる3000以上の独自プロンプトを含む包括的なデータセット - 8
  7. 3. The MMAU Benchmark: Capabilities (1/2) 5つの基本的能力の詳細: ▶ Understanding: -

    複雑な指示理解、ユーザー意図理解、統計解析、視覚的理解を評価 - 多様なドメインでの長文理解能力を測定 - Reasoning: - 複雑な要因から論理的に推論する能力 - 因果関係の把握、仮説の立案と検証能力を評価 - Planning: - 問題解決のための戦略を立てる能力 - 段階的なアプローチ、リソース配分、時間管理能力を測定 - 9
  8. 3. The MMAU Benchmark: Capabilities (2/2) Problem-solving: ▶ 理解と計画が適切な場合に、タスクを実行する能力 -

    実装スキル、エラー処理、最適化能力を評価 - Self-correction: ▶ エラーを特定し、環境や過去の行動から学び、修正する能力 - フィードバックの解釈、適応能力、継続的な改善能力を測定 - 10
  9. 3. The MMAU Benchmark: Planner-shift and Solver-shift 2段階の生成プロセスを通じて、推論/計画と問題解決能力を分離評価 ▶ Planner-shift:

    ▶ プランナーモデルのみを変更し、ソルバーモデルを固定 - 高レベルの計画生成能力を独立して評価 - Solver-shift: ▶ ソルバーモデルのみを変更し、プランナーモデルを固定 - 与えられた計画に基づく実行能力を独立して評価 - この設計により、計画能力と実行能力の個別評価が可能に ▶ 11
  10. 2.Data Science & Machine Learning: Meta Kaggle Codeデータセットを活用し、28のPythonノートブックスタイルの会話を作成 ▶ 123の会話ターンを含み、83のテキスト出力要求と40の画像出力要求を含む

    ▶ コード生成とQAを組み合わせたタスクを設計 ▶ E2Eコード生成とQA、コード生成とGPT-4 QA、オラクルコードからのQA、自己修正 - テキストと画像の出力を含む多様なタスク ▶ 13
  11. 3.Contest-Level Coding: CodeContestsデータセットから261問を選択 ▶ E2E標準: 多様なコーディング問題を解決する能力を評価 ▶ Planner-shift、Solver-shift: 計画と問題解決能力を分離評価 ▶

    問題解析: コードを書かずに問題を理解する能力を評価 ▶ 自己修正: エラーメッセージを基にコードを修正する能力を評価 ▶ 14
  12. 4.Mathematics: DeepMind-Mathから1000問を選択、56の科目をカバー ▶ E2E標準: Chain-of-Thought (CoT)を使用した数学問題解決能力を評価 ▶ Planner-shift、Solver-shift: 数学的推論と計算能力を分離評価 ▶

    Comprehend+: ▶ 数学的に単純だが記述が複雑な676問の新しい問題を生成 - LLMを使用して問題の記述を複雑化し、理解能力を重点的に評価 - 15
  13. 4. Evaluation: ドメイン中心の評価結果 API型商用モデルがオープンソースモデルを全ドメインで上回る ▶ GPT-4ファミリーが最も高いパフォーマンスを示す - Claude3-OpusとGemini-1.5-proも良好な性能を示す - オープンソースモデル間の差異:

    ▶ Hermes-2-Pro-Mistral-7Bがツール使用で強い性能を示す - Mixtral-8x22Bが数学とDAG-QAで高性能 - Phi-3がモデルサイズを考慮すると数学で良好な性能 - Llama2ファミリーは難しいコーディングタスクで苦戦 - 18
  14. 4. Evaluation: 能力中心の評価結果 理解能力: ▶ GPT-4oが他を大きく上回り、複雑な指示や暗黙の意図の理解に優れる - GPT-4、Gemini-1.5-pro、Claude3-Opusも強い理解能力を示す - 推論と計画:

    ▶ GPT-4ファミリーが最強の性能を示す - 他のモデルとの差が顕著 - 問題解決: ▶ モデル間の差が比較的小さい - 「オラクル」プランが与えられた場合、多くのモデルが問題を解決可能 - 自己修正: ▶ モデル間で大きな差が存在 - 多くのオープンソースモデルが自己修正能力に欠ける - Mixtral-8x22Bを除く他のオープンソースモデルは効果的な自己修正が困難 - 19
  15. 計画能力の重要性 高品質な計画が全モデルのパフォーマンスを向上 ▶ Command Rの性能が8.21%から33.33%に向上 - Llama-2-70Bの性能が8.43%から32.10%に向上 - Mixtral-8x22Bでも50%から60.02%に改善 -

    自身を計画者として使用しても性能が向上 ▶ GPT-4oの性能が53.4%から61.2%に向上 - 高レベル戦略の明示的な計画がパフォーマンス向上の鍵 ▶ 21
  16. 用語 DAG QA: Directed Acyclic Graph Question Answering(有向非巡回グラフを用いた質問応答) ▶ Chain-of-Thought

    (CoT): 思考の連鎖。問題解決過程を段階的に示す手法 ▶ API: Application Programming Interface(アプリケーションプログラミングインターフェース) ▶ Planner-shift: 計画立案者を変更するタスク設計 ▶ Solver-shift: 問題解決者を変更するタスク設計 ▶ E2E: End-to-End(エンドツーエンド) 。全過程を一貫して行うこと ▶ GPT: Generative Pre-trained Transformer(生成的事前学習済みトランスフォーマー) ▶ Mixtral, Llama: 特定のLLMモデルの名称 ▶ 30