Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI エージェントを活用した研究再現性の自動定量評価 / scisci2025

AI エージェントを活用した研究再現性の自動定量評価 / scisci2025

「サイエンスオブサイエンス研究会 2025」での発表資料
https://2025.scisci.jp/

Avatar for Shotaro Ishihara

Shotaro Ishihara

June 01, 2025
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 大規模言語モデル (LLM) の性能向上により, プログラムの 自動セットアップ・実行・解釈が実用的な精度で行えるように. 実装がある研究のプログラムを実際に実行して再現性を評価したい. [研究構想発表] AI エージェントを活用した研究再現性の自動定量評価 山口

    悠地 (東京科学大学),石原 祥太郎 (日本経済新聞社) [背景] 評価に必要な労力が非常に大きいために, 機械学習に関連する研究の再現性について分野横断的・長期的な分析が難しくなっている. [提案手法] AI エージェントを用いた自動評価を行う. 単に完全な結果を再現させるアプローチだけでなく, 固定したリソースの制限の元で実験を行わせたり, 環境構築のみを行わせるなどして, リーズナブルに広い範囲を評価できるようにする. 機械学習における 再現性の問題 [前提] 機械学習の社会応用が進むにつれ, 提案手法の実装を公開すること・その実装が 結果を再現することがより重要になっている. ・*CL カンファレンスで は 2020 年に再現性に関 するチェックリストへの 記入を導入. yes 率と採択 率の正の相関, yes率と査 読者からの再現性に関す る評価の相関を報告. ・NeurIPS (2019-) でも 同様の取り組み. ・ICLR でも Reproducibility Statement の掲載を強く 推奨 コード公開・ 再現性の定量的評価 再現性向上のための 取り組み ・セキュリティ分野に おける機械学習関連分 野の再現性を調査. 298 本を実際に実装するこ とを試み, 20% が結果 を再現したと報告. [Olszewski, Daniel, et al. 2023] ・機械学習, ロボティ クス, 制御分野におい て実装が公開された論 文の割合が 2016-2022 で 2 倍に. 実装が含まれる論文は 引用されやすく, GitHub Star数と正の 相関があることを報 告.[Zhou, Siqi, et al. 2023] 実装自体の検証は 特定の分野, 短い期間の分析 にとどまっている. より大規模な調査は可能か? AI エージェントによる 自動評価 再現性評価は大量の人的リソースが必要. 例) Olszewski らの研究では 8人年 と報告. 大規模な調査の大きな障壁に. AI エージェントによって自動化できないか? AI エージェントによる自動評価 Setup & Run Compare with the paper [先行研究] LLM のベンチマークとしての研究がある. ・PaperBench [Starace, Giulio, et al. 2025]   論文からのコード生成性能を評価. 成功したかを人間・ LLM-based Judge を比較して F1 Score = 0.83 と報告 → LLM-based Judge は有効な可能性が高い. ・EnvBench [Eliseeva, Aleksandra, et al. 2025] README などの記述から環境構築を行い, 成功したかを 静的解析ツールを用いて評価. → 同様のアプローチでリーズナブルに検証できる可能性. 議論・ 今後の展開 [議論] ・マシンリソースが必要な研究について, 依然として完全な 再現性の確認は困難. 別の仕組みでカバーする必要がある? ・現在の実験では最新のツールチェインを使用したコードベース でうまくいかない傾向が見られている. LLM の得意・不得意が 反映されないよう注意が必要. 既存の調査と比較することで有効 性を示したい. ・「再現」の指標としてどのようなものが使えそうか? [今後の展開] ・提案手法によって実際により大規模な調査を実施して小分野ご との傾向や長期的なトレンドを明らかにする. ・新規論文に対して継続的に評価を行う仕組みを整備すること で, コミュニティ全体の再現性向上に取り組む. 1. Olszewski, Daniel, et al. "" Get in Researchers; We're Measuring Reproducibility": A Reproducibility Study of Machine Learning Papers in Tier 1 Security Conferences." Proceedings of the 2023 ACM SIGSAC conference on computer and communications security. 2023. 2. Zhou, Siqi, et al. "What Is the Impact of Releasing Code With Publications?: Statistics from the Machine Learning, Robotics, and Control Communities". IEEE Control Systems 44. 4(2024): 38-46. 3. Starace, Giulio, et al. "PaperBench: Evaluating AI's Ability to Replicate AI Research." arXiv preprint arXiv:2504.01848 (2025). 4. Eliseeva, Alexander, et al. "EnvBench: A Benchmark for Automated Environment Setup." ICLR 2025 Third Workshop on Deep Learning for Code. 2025. [参考文献]