Upgrade to Pro — share decks privately, control downloads, hide ads and more …

# MLGym: A New Framework and Benchmark for Adva...

S. Ota
February 28, 2025

# MLGym: A New Framework and Benchmark for Advancing AI Research Agents

# MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Deepak Nathani, et al., 2025.
arXiv preprint arXiv:2502.14499
https://arxiv.org/abs/2502.14499

第109回汎用人工知能輪読会
担当: 太田 晋
2025-02-28

S. Ota

February 28, 2025
Tweet

More Decks by S. Ota

Other Decks in Research

Transcript

  1. MLGym: A New Framework and Benchmark for Advancing AI Research

    Agents Deepak Nathani, et al., 2025. arXiv preprint arXiv:2502.14499 https://arxiv.org/abs/2502.14499 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28
  2. 概要 MLGym, MLGym-Bench: LLMエージェントをAI研究タスクで評価・開発するため のフレームワーク・ベンチマーク Gym環境: 強化学習アルゴリズム等を用いてエージェントを訓練 AI研究タスク: コンピュータビジョン・自然言語処理・強化学習・ゲーム理論など 13のオープンエンドなタスク

    AI研究スキル: 新しいアイデアや仮説の生成・データ作成と処理・ML手法の実 装・モデルのトレーニング・実験実施・結果分析・プロセス全体の改善と反復 最先端LLMの評価: Claude-3.5-Sonnet, Llama-3.1, GPT-4o, o1, Gemini-1.5 Pro フレームワーク: 新タスクの追加・モデルやエージェントの統合と評価・スケーラ ブルな合成データ生成・新たな学習アルゴリズムの開発・オープンソース 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 3/71
  3. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 5/71
  4. 背景 AI研究の長期目標: 科学的発見を加速すること 未来のビジョン AI研究エージェントが、文献検索・仮説生成・実験計画・新手法の実装・結 果の分析・論文執筆・製品への応用・研究プロセスの全ての部分を支援 完全自律 or 人間の監督下 これまでの成功例

    新薬の発見 (Hessler and Baringhaus, 2018), (Schneider et al., 2020) マテリアルサイエンス (Guo et al., 2021) 膨大な知識グラフを分析することで、隠れた分野横断的関係性 (interdisciplinary relationships)を明らかにし、斬新な洞察と解決策を導く 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 6/71
  5. AI研究エージェントの能力分類 レベル 説明 Level 0: Reproduction LLMエージェントは、元のコードへのアクセスの有無にかかわらず、既存の研究論 文を再現することができる Level 1:

    Baseline Improvement (MLGym-Benchのフォーカス) 最先端(SOTA)ではないベースライン・コードが与えられた場合、ベンチマークの性 能を改善することができる Level 2: SOTA Achievement タスクの説明と SOTA 手法の発明以前に発表された文献へのアクセスのみが与えら れた場合、ベンチマークで SOTA の性能を達成することができる Level 3: Novel Scientific Contribution NeurIPSのようなトップMLカンファレンスで発表する価値のある新規の科学的貢献 を提供することができる Level 4: Groundbreaking Scientific Contribution NeurIPSのような権威あるMLカンファレンスで口頭発表または最優秀論文賞として 発表するに値する科学的貢献をすることができる Level 5: Long-Term Research Agenda ノーベル賞やチューリング賞といった賞に値する、パラダイムシフトを起こすよう な研究のブレークスルーを提供することができる 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 10/71
  6. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 11/71
  7. 既存のAI研究ベンチマーク MLE-Bench (Chan et al., 2024) Kaggleコンペティションの狭い範囲の機械学習タスク SWE-Bench / SWE-Agent

    (Yang et al., 2024) Githubのissuesを解決することに焦点 MLAgentBench (Huang et al., 2024) ML専門のタスク(回帰・分類・コードの高速化)と最近の研究課題に焦点 RE-bench (METR, 2024) 広範なMLエンジニアリングタスク ScienceAgentBench (Chen et al., 2024) 査読付き論文から抽出されたデータ駆動型の科学的発見タスク 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 13/71
  8. 評価方法の比較 MLGym Pythonコードを提供するだけでよく、エージェントが現在の解決策の品質を 調べることができる 簡単にモデルとエージェントの両方を評価することができる MLE-Bench 各質問の採点にCSVファイルを提出 SWE-Bench / SWE-Agent

    ユニットテストのコレクションを通じてコードを評価 MLAgentBench, RE-Bench, ScienceAgentBench 評価スコアを計算するためのPythonスクリプトを提供 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 14/71
  9. エージェント型LLM ツール拡張型LLMの研究に触発され、エージェント型LLM("agentic" LLMs)という 研究課題が提案されている 既存研究 LLMにツールやAPIを使わせる・Webをナビゲートさせる・OSとの接続・ゲ ームをプレイ・シミュレーション世界 or 物理的世界との相互作用 エージェント型LLMの評価

    環境の設計・ツールの提供・タスクと目標の定義・システムの性能を測定す るための定量的指標の設定が必要 エージェント型LLMのベンチマーク 複雑なタスクに対する、体系的で多面的な評価、結果の検証可能性・再現性 を担保するベンチマークが求められている 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 15/71
  10. ソフトウェアエンジニアリングエージェント SWE-Agent (Yang et al., 2024) ファイル作成・リポジトリナビゲーション・コードテスト OpenHands (Wang et

    al., 2024c) 安全なコマンド実行・検証可能なWebブラウジング Magentic-One (Fourney et al., 2024) Webナビゲーション機能 AutoCodeRover (Zhang et al., 2024b) LLMベースのプログラミングと、抽象構文木としてのプログラム表現を組み 合わせて、Githubのissuesを解決 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 17/71
  11. データサイエンスエージェント AutoKaggle (Li et al., 2024) マルチエージェントの人間支援システム AgentK v1.0 (Grosnit

    et al., 2024) エンドツーエンドの自律型データサイエンスエージェント Spider 2.0 (Lei et al., 2024) テキストからSQLへのワークフローの自動化 Spider 2-V (Cao et al., 2024) 自律的なマルチモーダルエージェント 企業データサイエンス・エンジニアリングワークフローの自動化 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 18/71
  12. 探索指向エージェント SWE-Search (Antoniades et al., 2024) MCTSと反復改良を組み合わせたマルチエージェントフレームワーク (Koh et al.,

    2024b) LLMエージェントに最良優先探索(best-first search)を組み込む (Yu et al., 2025) MCTSベースのテストタイム探索(test-time search)と自己学習技術 (Xia et al., 2024) 3ステッププロセスに従う比較的単純なエージェントレスシステム SWE-bench Liteで複雑なエージェントベースの方法を上回る 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 19/71
  13. データサイエンスタスク 最近の研究 古典的なデータサイエンスタスクと実際のリポジトリベースのタスク エージェントの自律性のレベルに差がある ML-Bench (Tang et al., 2024) GitHubリポジトリ内の明示的なタスクに焦点

    Data Interpreter (Hong et al., 2024) コーディングタスク・数学的推論・OCR・Web検索・ミニゲーム生成などの オープンエンドアプリケーション SUPER (Bogin et al., 2024) エージェントがタスクを自ら定義し、NLP関連のデータとタスクについて繰 り返し反復する 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 22/71
  14. AI研究タスク MLAgentBench (Huang et al., 2024) 画像分類の改善から言語モデリングまでの13の複雑なタスク RE-Bench (METR, 2024)

    7つの多様で難しいMLタスクで、人間の専門家と比較 2時間が与えられた場合、トップエージェントが人間の専門家の4倍のスコア を達成。ただし、32時間では人間がエージェントの2倍のスコアを達成 MLE-bench (Chan et al., 2024) Kaggleタスクをエージェント評価のソースとして使用。試行時間は24時間 AI Scientist (Lu et al., 2024) 論文生成のためのエンドツーエンドの実験サイクルに基づくタスク 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 24/71
  15. 科学的発見タスク (DiscoveryWorld) DiscoveryWorld (Jansen et al., 2024) ゲームのような仮想発見環境で評価される科学エージェントのベンチマーク エージェントに、仮説の生成・実験計画と実行・結果の分析・結論に基づい た行動を求める

    120のタスク: プロテオミクス・化学・考古学・物理学・農学・ロケット科 学・言語学・疫学などの分野 カスタムシミュレーションエンジンは、限られた対象と14の行動のみ タスクに特化した解決策ではなく、一般的な発見スキルに焦点 評価・対象空間・行動空間がすべての科学的ドメインに共通している 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 25/71
  16. 科学的発見タスク (ScienceAgentBench) ScienceAgentBench (Chen et al., 2024) 44の厳選された査読付き論文に基づくデータ駆動型の発見タスク 分野: バイオインフォマティクス・計算化学・地理情報科学・神経科学

    102のタスク: データ処理・モデリング・可視化など 各タスクはPythonベースの評価環境、最終結果の評価、中間評価基準で定義 データ汚染とエージェントのショートカット問題を制御する特別な評価基準 プロンプトを用いた純粋なLLMを含む異なるベースラインを比較 エージェントが有用な解を生成するためには、実行フィードバックが必要 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 26/71
  17. 科学的発見タスク (ResearchAgent) ResearchAgent (Baek et al., 2024) 実行フィードバックと反復的改善のアイデア 文献ベースの発見に基づくエージェント的な概念ベースのアプローチが、エ ンドツーエンドの反復的な解決策生成を大幅に改善

    エージェントは、主観的な人間の好みのアノテーションと、自動的な人間の 好みだけで評価 エンドツーエンドの実験パイプラインの構造化された側面をカバー 問題の明確さ・実現可能性・重要性・関連性・独創性・方法の汎用性・ 革新性・実験の再現性・妥当性など 客観的な評価基準で補完された人間の判断だけに依存することは不十分 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 27/71
  18. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 28/71
  19. MLGymフレームワーク 既存の強化学習分野から着想を得て、AI研究エージェント向け Gym (Brockman et al., 2016) 環境を構築 ローカルのdockerコンテナのシェルでコマンドを実行できる エージェント・環境・データセット・タスクの4つのコアコンポーネント

    MLGymのモジュラー設計により、ライブラリを簡単に利用・拡張可能 他のエージェントハーネスを実装して性能向上 ツールを追加して環境を拡張 タスクに対するデータセットを追加 例: CIFAR-10の画像分類タスクにImageNetを追加 ベンチマークにタスクを追加 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 31/71
  20. 環境 MLGym環境は、Gymnasium (gym) 環境として設計 シェル環境をローカルのdockerマシンで初期化 ツールのインストール・Python依存関係のインストール・全ての必要なデー タとコードを別々のエージェントワークスペースにコピー・LLMエージェン トとシステムの間のやり取りを管理 ファイルとディレクトリの権限を管理 ツールとACI

    (Agent-Computer Interface)をエージェントから分離して、エージェ ントと環境が緊密に結合されることを防ぐ 環境が初期化されると、作業環境のツールも初期化され、ツールのドキュメント が作成され、LLMエージェントのプロンプトに追加できる 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 33/71
  21. ツールとACI 外部ツールを使用できるようにすることは、知識集約的なタスクを進める上で重 要なコンポーネント SWE-Agentで導入されたACI (agent-computer interface) を拡張 検索・ナビゲーション・ファイルビューア・ファイルエディタ・コンテキス ト管理を、権限管理システム付きで拡張 新しいコマンドとして、文献検索とメモリモジュールを導入

    文献検索と実験ログをメモリに保持する機能は、エージェントがオープンエ ンドの研究タスクでSOTA解を超えるために重要 ツールは、BashまたはPythonスクリプトとして定義 システムプロンプトですべてのツールのドキュメントを提供 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 36/71
  22. メモリモジュ ールから訓練 構成を取得し 探索を再開 memory_read コマ ンドで最適な訓練 構成を取得 (上から 2番目の緑色のセル)

    その訓練構成を基 に解の探索を再開 (3番目以降のセル) 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 40/71
  23. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 43/71
  24. 参考: Multi-Genre Natural Language Inference (MultiNLI) (Williams et al., 2018)

    自然言語推論 含意関係認識 (recognizing textual entailment) 文のペアを提示して、含意 (E)・中立(N)・矛盾(C)の3つ のカテゴリに分類 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 46/71
  25. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 49/71
  26. 実験セットアップ エージェント SWE-Agentベースのエージェントを使用 シンプルなReActスタイルの思考と行動のループに従う (Yao et al., 2023) ACIドキュメント・タスクとデータセットの説明・短い一般的な指示を提示さ れ、ML研究者として行動

    ステップ毎に単一のコマンドを使用し、対話的なセッションコマンド (例: Python REPL, vim) は使用不可 5つの最先端言語モデルを temperature=0.0 と top-p=0.95 で使用 OpenAI O1-preview, Gemini 1.5 Pro, Claude-3.5-Sonnet, Llama-3-405b- instruct, GPT-4o 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 50/71
  27. 環境設定 ウィンドウ設定: 1000行のウィンドウサイズ、2行のオーバーラップ コンテキスト管理: 直近の5つのインタラクション (行動と観測) を保持 コマンドインターフェース: 標準のbash操作・ファイル操作コマンド・ファイル 編集コマンド・ファイルとディレクトリの検索コマンド・評価コマンドを提供

    1回のエージェントの実行は50ステップまで制限され、最後のコードベースの状態 が自動的に提出 エージェントの実行時間を制御し、モデルのパラメータ数を単に増やすことを防 ぐために、トレーニングコマンドのタスク固有のタイムアウトを設定 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 51/71
  28. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 52/71
  29. 評価 各手法(エージェントアーキテクチャと言語モデルのペア)のスコアを13個のタス ク全体で集計 スコアや順位をナイーブに平均するのではなく、パフォーマンスプロファイル曲 線(Dolan and Moré, 2002)を採用し、方法とタスクの相対的なパフォーマンス向 上を比較 パフォーマンスプロファイルは、最適化問題のセットを横断して最適化手法を比

    較するために開発された AutoMLコミュニティでは、異なるドメインでのAutoML手法を比較するために使 用され、それぞれのドメインに特化した測定基準が存在 (Tu et al., 2022; Roberts et al., 2022b). 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 53/71
  30. Best Submission と Best Attempt 各タスクで各モデルを 4 回独立に実行したスコアを報告 (Best Submission@4

    と Best Attempt@4) Best Submissionは、LLMエージェントがタスクに対して有効な最終解を生成する 能力と、いくつかの実験がうまくいかなかった場合に最適な中間解を記憶する能 力を示す Best Attemptは、与えられたタスクを解決するLLMエージェントの潜在的な能力 の上限を示す 後述の図2は Best Attempt@4 (左) と Best Submission@4 (右) のパフォーマンス プロファイル曲線 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 55/71
  31. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 56/71
  32. 言語モデル毎の AUP スコア Area Under the Performance Profile (AUP) スコア

    (面積に相当) OpenAI O1-previewが、Best AttemptとBest Submissionの両方において、タス クセット全体で最も優れた性能を発揮するモデル Claude-3.5-Sonnet と Gemini 1.5 Pro が僅差で続く 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 58/71
  33. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 65/71
  34. 議論と制限 MLタスク以外の拡張: データセット・タスク・フレームワークの拡張が不可欠 異分野間の汎化とアブレーション 異なるドメインに対する新しい手法の適用性を自動的に評価 (例: Mamba) アブレーションの自動化により、MLシステムの特定のコンポーネントを系統 的に削除または変更し、それらが性能に与える影響を評価 科学的新規性への取り組み:

    分野横断的手法の外挿は、"新規性"と"発見"に対する より広範な科学的理解の一側面に過ぎない 科学的な新規性の概念を自動化できるか、あるいはエージェントに適した形 で正式に定義できるかは、まだ明らかではない 科学的進歩を推進する上でオープンなデータが重要 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 66/71
  35. 目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench

    5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 67/71
  36. 参考文献 Deepak Nathani, et al. MLGym: A New Framework and

    Benchmark for Advancing AI Research Agents. arXiv preprint arXiv:2502.14499. 2025. https://arxiv.org/abs/2502.14499 Repository: https://github.com/facebookresearch/MLGym Greg Brockman, et al. OpenAI Gym. arXiv preprint arXiv:1606.01540. 2016. https://arxiv.org/abs/1606.01540 Repository: https://github.com/openai/gym Adina Williams, et al. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference. NAACL 2018. 2018. https://aclanthology.org/N18-1101/ Kenny Young, et al. MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments. arXiv preprint arXiv:1903.03176. 2019. https://arxiv.org/abs/1903.03176 Repository: https://github.com/kenjyoung/MinAtar Robert Tjarko Lange. gymnax: A JAX-based Reinforcement Learning Environment Library. GitHub repository. 2022. http://github.com/RobertTLange/gymnax 第109回汎用人工知能輪読会 担当: 太田 晋 2025-02-28 71/71