Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KaggleはAIに解けるか?MLE-Benchのいま (2025/08/23; 第4回 関...
Search
Takuya Akiba
August 23, 2025
3.8k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
KaggleはAIに解けるか? MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)
Takuya Akiba
August 23, 2025
More Decks by Takuya Akiba
See All by Takuya Akiba
戦えるAIエージェントの作り方
iwiwi
29
17k
自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)
iwiwi
2
200
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
11
7.5k
LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
iwiwi
12
10k
Stability AI Japanにおける大規模言語モデルの研究開発
iwiwi
17
12k
Kaggle Traveling Santa 2018 - 4th Place Solution
iwiwi
1
65
Kaggle State Farm Distracted Driver Detection
iwiwi
15
10k
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
790
We Are The Robots
honzajavorek
0
260
Amusing Abliteration
ianozsvald
1
210
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
160
KATA
mclloyd
PRO
35
15k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
180
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
740
Everyday Curiosity
cassininazir
0
240
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
400
Transcript
KaggleはAIに解けるか? MLE-Benchのいま 第4回 関東Kaggler会 2025/08/23 秋葉 拓哉 (@iwiwi)
自己紹介 @iwiwi 2016〜2023 2023〜
MLE-Benchとは?
MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開
Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095
smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095
最新の状況は?
公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」(何メダルでもOK)
公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり (GitHub上でPRを出せば自己申告可能)
AIDE https://arxiv.org/abs/2502.13138
AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索 一番スコアが良いコードを改善させることを繰り返す
AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ 正常終了してないコードを選び修正しようとしてみる
AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ
ML-Master https://arxiv.org/abs/2506.16499
ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索 ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、 みたいなヒューリスティック流行ってきてる気がする?
ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)
ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります! 「今コンテストに出たら17.3%の確率で金メダル」では多分ないです!
Neo https://heyneo.so/
Neo https://heyneo.so/ 技術的な情報はほぼなし
周辺の進展
ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月 リリース
AIが途中でも提出しLB情報を得られる (MLE-Benchはできず一発勝負) ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782
推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131
AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ (雑な説明:サンタコンペみたいなやつ)
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位! コンテストは19時まで
KaggleはAIに いつ解けるか?
Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……??? そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか?