Sakana AIが推進する生成AI研究の方向性

Sakana AIが推進する生成 AI研究の方向性中郷孝祐 2025.10.30 CBI学会2025年大会　招待講演「生成AI：未来を紡ぐ知のエンジン」

01 自己紹介

自己紹介 3 • 中郷孝祐 @corochann • 東京大学大学院　物理学専攻 • Preferred Networks
2016~ ◦ 製造業を中心にDeep Learningの応用研究 • Matlantis ◦ 汎用原子レベルシミュレータMatlantisの研究開発組織立ち上げ・グローバル展開推進 • Preferred Elements ◦ PLaMo-100Bの事後学習 • Sakana AI 2025~ ◦ Applied teamに参画 ◦ チーム立ち上げ・金融Projectに携わる • Kaggle 2x Grandmaster (Competitions & Notebooks)

今日伝えたいこと • コンピュータが得意なものは学習と探索によるスケール • LLM時代には学習のスケールは圧倒的に進み、基盤モデルが作られた ◦ 結果、汎用的なモデルが様々な問題にたいしてアプローチできるように • LLMを用いた探索問題に落とし込むことで様々な問題にアプローチでき、
人間と同等 or それ以上の解を見つけることができるように。

02 Sakana AIの研究方針

会社紹介: Sakana AI “The core research focus of Sakana AI
is in applying nature-inspired ideas, such as evolution and collective intelligence, to improve foundation models’ performance” 6

会社紹介: Sakana AI “The core research focus of Sakana AI
is in applying nature-inspired ideas, such as evolution and collective intelligence, to improve foundation models’ performance” 7 自然界から発想を得るとは？ 🤔 基盤モデルを使った集合知の実現とは？ 🤔 生物の進化の仕組みがどう基盤モデルに使えるの？ 🤔

進化的アルゴリズム - Evolutionary Algorithm 8 • メタヒューリスティックな最適化アルゴリズムの総称 • 突然変異、遺伝子組み換え、自然淘汰、適者生存といった進化の仕組みに着
想を得たアルゴリズムを用いる https://www.ultralytics.com/ja/blog/what-is-an-evolutionary-algorithm-a-quick-guide 手法分類概要 GA - Genetic Algorithm 解を遺伝子で表し、Crossoverで個体を進化させながら探索 GP - Genetic Programming 遺伝子を木構造で表し、プログラムそのものを進化 ES - Evolution Strategy 実数ベクトルで解を表し、主にパラメータ探索に用いる EP - Evolutionary Programming ESと似ていて、解の適応度関数に集団中におけるその解の優位性を表した確率的な関数を用いる古典的なEAの例

03 Collective Intelligence

世の中にあるモデルを活用して、集合知を作る • 新しくモデルを作る (EMM, CycleQD, M2N2) • 複数モデル活用し、より賢い知能を作る (AB-MCTS, ShinkaEvolve)

世の中にある OSSモデルを活用例えば、Huggingface上には • アップロードされたモデルは累計 2百万以上 • 毎月10万モデルがアップロードされている →これらを有効活用し、よりよいモデルが作れないか？ https://huggingface.co/spaces/cfahlgren1/hub-stats

Evolutionary Model Merge - Nature Machine Intelligence • OSSのLLM同士をMergeし、新しいModelを作成 •
進化的アルゴリズムを用いて重みを変更する • Fine tuningは行わずデータ不要、低コストでの実行が可能 Layer方向のMerge 重み方向のMerge 両方を組み合わせたMerge

Evolutionary Model Merge - Nature Machine Intelligence • 英語のVLM: LLaVa-1.5-Mistral-7Bと日本語のLLM:
Shisa Gamma 7B v1を組み合わせ、日本語が理解できるVLMを構築した例。 https://sakana.ai/evolutionary-model-merge-jp/

Cycle QD - ICLR 2025 • EMMを発展させて多目的最適化に対応させた。 ◦ Quality Diversity
- 品質の多様性を重視して進化を進めていく。 ◦ Coding, OS, Databaseタスクそれぞれの特化モデルから、どれもできるようなモデルを生み出すことに成功 Cycle QD https://openreview.net/forum?id=Kvdh12wGC0

Model Merging of Natural Niches (M2N2) - Gecco • Model
Mergeの手法を更に柔軟にするために複数の工夫を提案 ◦ 1. Merge境界の動的な調整 (下図) ◦ 2. 資源競争(ベンチマークごとのPerformance)によるNicheの保存 ◦ 3. モデル同士を融合させる際のペアの魅力度を計算 https://arxiv.org/abs/2508.16204 左側の従来手法に比べてより柔軟にMergeを行う日本語を理解する画像生成モデルを作成

複数モデルを活用し、より賢い性能を実現 Frontierモデルなど、重みが公開されていない場合でも複数モデルを組み合わせて使うことで集合知が実現できるか？ https://sakana.ai/ab-mcts-jp/

AB-MCTS - NeurIPS 2025 Spotlight • モンテカルロ木探索を用いて、様々なモデルで推論させながら Test-time Scalingを実行 •
Frontierモデルを組み合わせて、単体を超える性能を実現 https://sakana.ai/ab-mcts-jp/

Shinka Evolve • 進化的アルゴリズムにより、複数の LLMを呼びながらプログラムを改善していく • Circle Packing Problem に対し、少ないクエリ回数でもAlphaEvolveを超えるような性能が出
せた

04 Agent Workﬂow

AI Agent, Agent Workﬂow • 2025年はAI Agentの年と言われている。 • Sakana AIはそのトレンドに先駆けてAgent
Workflowがサイエンス領域で使えることを示した。 ◦ AI Scientist ◦ AI Scientist v2 など • また、自己進化の仕組みを取り入れ、 Agent Workflow自体の自動作成も提案 ◦ ADAS ◦ DGM

AI Scientist • 論文のアイデア生成・実験・論文執筆・評価までの流れを全自動化 • AIによる論文執筆を行わせた初の事例に https://github.com/SakanaAI/AI-Scientist

AI Scientist v2 v1からの改善点 • Free template化: 実験コードの初期実装が不要に。 AIがフルスクラッチで実験コードも書く •
Tree based search: 1実験を1ノードとみなし、木探索でより様々な実験を行う • VLM Reviewer: 論文の図をビジュアルで評価し、論文全体の質をより向上 ICLR WorkshopでAcceptのレベルを達成 ※ AIによる論文はResearch Communityとの対話が必要として発表は行わずに採択後、撤回 https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf

AI Scientist v2 • Tree Based Searchでは、機械学習系の論文執筆プロセスのドメイン知識を入れ込み以下のStage順序で実験を深堀りしていくように https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf

AI Scientist v2 • 生成された論文例 https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf

ADAS: Automated Design of Agentic Systems • あるタスクに対して、どういう AI Agentを構築すると精度が出るか？という問に対し、
AI Agentの構築自体をAIにやらせる。 ◦ Meta AgentがAgentを作り出すというアプローチ ◦ 何度もいろんなAgent architectureを作ってはその精度を計測することで、 Agent architecture自体を改善していく。 • https://www.shengranhu.com/ADAS/

ADAS: Automated Design of Agentic Systems • 実際に構築されるAgentの例。ARC Challengeを解くためにこれだけ複雑なWorkflowを組んでAgentを構築することでARC
Challengeの正答率があがるということを自動で探索することができた。 https://www.shengranhu.com/ADAS/

The Darwin Gödel Machine (DGM) • 自らのコードを書き換え自己改善する https://sakana.ai/dgm/

The Darwin Gödel Machine (DGM) • これまでに作成したAgentをArchiveとして保持しておき、それらから1つを選び、自己改善(追加実装)を行う形でより良い性能を出すコードの探索を進める。 https://sakana.ai/dgm/

The Darwin Gödel Machine (DGM) • プログラムを書き換えている様子 https://sakana.ai/dgm/

05 Benchmark

The 2nd half • OpenAI Shunyu Yaoさんのブログより • 生成AI時代においては、似た問題設定で難しい Benchmarkが出てきてもすぐにそれが解けるようになっ
てきた。 • 結果、AI 研究に求められるものが変わってきた。 https://ysymyth.github.io/The-Second-Half/

The 2nd half The first half • We develop novel
training methods or models that hillclimb benchmarks. • We create harder benchmarks and continue the loop. The second half • We develop novel evaluation setups or tasks for real-world utility. • We solve them with the recipe or augment the recipe with novel components. Continue the loop. https://ysymyth.github.io/The-Second-Half/ AIは後半戦に突入した。 Deep Learning時代の前半戦では、 “手法” が主役、AlexNetなど手法の工夫で Benchmarkスコアの更新競争が続いた後半戦では、適切なタスク≒ “Benchmark” を発明することが価値を生む時代に。どのような Benchmarkを利用し、どのように性能を上げるか？をセットで考える

THE AI CUDA Engineer • LLMに繰り返し最適なCUDA Kernelを考えさせ、実行時間計測することで pytorchのもともとのコードよりもさらなる高速化を行う ◦ 実行時間計測のために用いていた
BenchmarkであるKernelBenchの脆弱性がつかれて、スコアをHackされてしまうという気づきも得た https://sakana.ai/ai-cuda-engineer/

robust-kbench • KernelBenchをより強固にしたBenchmarkを提案 • 本Benchmarkを用いることで、より確実にCUDA Kernelの最適化が可能に https://arxiv.org/abs/2509.14279

Sudoku-Bench • AIは人間のような創造的な推論力を持つのか？ • ニコリ社やYouTubeパズル解説チャンネル「Cracking The Cryptic」と協力して作成 • 人間が解ける問題においても、 LLMはまだ大きな発展の余地があることを示した https://sakana.ai/sudoku-bench-jp/

EDINET-Bench 日本の上場企業における有価証券報告書は、金融庁の電子開示システム EDINETから無料で取得可能これを利用して、以下３つのタスクを作成した • 会計不正検知：有価証券報告書に不正が含まれているか否かを予測する 2値分類タスク • 業績予想：有価証券報告書の次の年度の業績が今年度に比べて増加するか下降するかを予測する 2値
分類タスク • 業種予測：有価証券報告書の表データをもとに業種を予測する多値分類タスク

EDINET-Bench • スコアの向上が、金融業界での直接的な産業価値につながるような Benchmarkを提案した • 会計不正検知は最先端のLLMを用いても難しいことを報告 ◦ 現状のLLMでは難しいことの原因分析、今後の LLM性能向上がFuture work
https://sakana.ai/edinet-bench/

ALE-Bench - NeurIPS • AtCoder社と協力し開発したAlgorithm Engineering Benchmark • 過去のAtCoder Heurstic
Contest (AHC)を元に作成された、物流の最適化や工場生産計画といった、現実社会の産業課題に直結する最適化問題を扱う https://sakana.ai/ale-bench-jp/

ALE-Agent - NeurIPS • Benchmark作成とともに、最適化問題を解く Agentを開発。 • 評価用にAtCoder社と共同開発した ALE-Bench上で性能を磨き、 AtCoder
World Tour Finals 2025にて、世界5位相当のスコアを獲得。トップレベルの人間に迫る解決策を AIが自律的に発見できることを示した。 https://x.com/SakanaAILabs/status/1945846213154353496

06 Conclusion

まとめ Sakana AIの特徴である、Nature Inspired Approachを用いた基盤モデル開発・AI Agent構築について紹介した。 • モデルを組み合わせて集合知を実現する ◦
複数の強みを持ち合わせた新しいモデルの作成 ◦ 複数のモデルを組み合わせて、凌駕する Performanceを達成 • AI Agent Workflow構築し、自己改善する ◦ AI Scientistによる論文ネタアイデアと実験探索 ◦ ADAS, DGMによるコードの自己改善 • Benchmark作成 ◦ 生成AI研究が進むべき道を提案。解きたいタスクをLLMが探索可能な形に。

まとめ Sakana AIの特徴である、Nature Inspired Approachを用いた基盤モデル開発・AI Agent構築について紹介した。 • モデルを組み合わせて集合知を実現する ◦
複数の強みを持ち合わせた新しいモデルの作成 ◦ 複数のモデルを組み合わせて、凌駕する Performanceを達成 • AI Agent Workflow構築し、自己改善する ◦ AI Scientistによる論文ネタアイデアと実験探索 ◦ ADAS, DGMによるコードの自己改善 • Benchmark作成 ◦ 生成AI研究が進むべき道を提案。解きたいタスクをLLMが探索可能な形に。進化的アルゴリズムによる探索 MCTS, 進化的アルゴリズムで探索木探索進化的アルゴリズム・木探索

まとめ • 材料探索・創薬の分野においても、基盤モデルの汎用性を活かして、これまではアプローチできなかった問題を探索問題に落とし込むことで、画期的な発見に繋がる可能性がある。

Sakana AIが推進する生成AI研究の方向性

Sakana AIが推進する生成AI研究の方向性

More Decks by Sakana AI

Featured

Transcript