Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sakana AIが推進する生成AI研究の方向性

Avatar for Sakana AI Sakana AI PRO
October 31, 2025
12

Sakana AIが推進する生成AI研究の方向性

2025年10月30日開催のCBI学会2025年大会招待講演資料

Avatar for Sakana AI

Sakana AI PRO

October 31, 2025
Tweet

Transcript

  1. 自己紹介 3 • 中郷孝祐 @corochann • 東京大学大学院 物理学専攻 • Preferred Networks

    2016~ ◦ 製造業を中心にDeep Learningの応用研究 • Matlantis ◦ 汎用原子レベルシミュレータMatlantisの研究開発 組織立ち上げ・グローバル展開推進 • Preferred Elements ◦ PLaMo-100Bの事後学習 • Sakana AI 2025~ ◦ Applied teamに参画 ◦ チーム立ち上げ・金融Projectに携わる • Kaggle 2x Grandmaster (Competitions & Notebooks)
  2. 会社紹介: Sakana AI “The core research focus of Sakana AI

    is in applying nature-inspired ideas, such as evolution and collective intelligence, to improve foundation models’ performance” 6
  3. 会社紹介: Sakana AI “The core research focus of Sakana AI

    is in applying nature-inspired ideas, such as evolution and collective intelligence, to improve foundation models’ performance” 7 自然界から発想を得るとは? 🤔 基盤モデルを使った 集合知の実現とは? 🤔 生物の進化の仕組みが どう基盤モデルに使えるの? 🤔
  4. 進化的アルゴリズム - Evolutionary Algorithm 8 • メタヒューリスティックな最適化アルゴリズムの総称 • 突然変異、遺伝子組み換え、自然淘汰、適者生存 といった進化の仕組みに着

    想を得たアルゴリズムを用いる https://www.ultralytics.com/ja/blog/what-is-an-evolutionary-algorithm-a-quick-guide 手法分類 概要 GA - Genetic Algorithm 解を遺伝子で表し、Crossoverで個体を 進化させながら探索 GP - Genetic Programming 遺伝子を木構造で表し、 プログラムそのものを進化 ES - Evolution Strategy 実数ベクトルで解を表し、 主にパラメータ探索に用いる EP - Evolutionary Programming ESと似ていて、解の適応度関数に集団 中におけるその解の優位性を表した確率 的な関数を用いる 古典的なEAの例
  5. Evolutionary Model Merge - Nature Machine Intelligence • OSSのLLM同士をMergeし、新しいModelを作成 •

    進化的アルゴリズムを用いて重みを変更する • Fine tuningは行わずデータ不要、低コスト での実行が可能 Layer方向のMerge 重み方向のMerge 両方を組み合わせたMerge
  6. Evolutionary Model Merge - Nature Machine Intelligence • 英語のVLM: LLaVa-1.5-Mistral-7Bと日本語のLLM:

    Shisa Gamma 7B v1を組み合わせ、 日本語が理解できるVLMを構築した例。 https://sakana.ai/evolutionary-model-merge-jp/
  7. Cycle QD - ICLR 2025 • EMMを発展させて多目的最適化に対応させた。 ◦ Quality Diversity

    - 品質の多様性を重視して進化を進めていく。 ◦ Coding, OS, Databaseタスクそれぞれの特化モデルから、 どれもできるようなモデルを生み出すことに成功 Cycle QD https://openreview.net/forum?id=Kvdh12wGC0
  8. Model Merging of Natural Niches (M2N2) - Gecco • Model

    Mergeの手法を更に柔軟にするために複数の工夫を提案 ◦ 1. Merge境界の動的な調整 (下図) ◦ 2. 資源競争(ベンチマークごとのPerformance)によるNicheの保存 ◦ 3. モデル同士を融合させる際のペアの魅力度を計算 https://arxiv.org/abs/2508.16204 左側の従来手法に比べてより柔軟にMergeを行う 日本語を理解する画像生成モデルを作成
  9. AB-MCTS - NeurIPS 2025 Spotlight • モンテカルロ木探索を用いて、様々なモデルで推論させながら Test-time Scalingを実行 •

    Frontierモデルを組み合わせて、単体を超える性能を実現 https://sakana.ai/ab-mcts-jp/
  10. AI Agent, Agent Workflow • 2025年はAI Agentの年と言われている。 • Sakana AIはそのトレンドに先駆けてAgent

    Workflowが サイエンス領域で使えることを示した。 ◦ AI Scientist ◦ AI Scientist v2 など • また、自己進化の仕組みを取り入れ、 Agent Workflow自体の自動作成も提案 ◦ ADAS ◦ DGM
  11. AI Scientist v2 v1からの改善点 • Free template化: 実験コードの初期実装が不要に。 AIがフルスクラッチで実験コードも書く •

    Tree based search: 1実験を1ノードとみなし、木探索でより様々な実験を行う • VLM Reviewer: 論文の図をビジュアルで評価し、論文全体の質をより向上 ICLR WorkshopでAcceptのレベルを達成 ※ AIによる論文はResearch Communityとの対話が必要として発表は行わずに採択後、撤回 https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf
  12. ADAS: Automated Design of Agentic Systems • あるタスクに対して、どういう AI Agentを構築すると精度が出るか?という問に対し、

    AI Agentの構築自体をAIにやらせる。 ◦ Meta AgentがAgentを作り出すというアプローチ ◦ 何度もいろんなAgent architectureを作ってはその精度を計測することで、 Agent architecture自体を改善 していく。 • https://www.shengranhu.com/ADAS/
  13. ADAS: Automated Design of Agentic Systems • 実際に構築されるAgentの例。ARC Challengeを解くためにこれだけ複雑なWorkflowを組んでAgentを構築す ることでARC

    Challengeの正答率があがるということを自動で探索することができた。 https://www.shengranhu.com/ADAS/
  14. The 2nd half The first half • We develop novel

    training methods or models that hillclimb benchmarks. • We create harder benchmarks and continue the loop. The second half • We develop novel evaluation setups or tasks for real-world utility. • We solve them with the recipe or augment the recipe with novel components. Continue the loop. https://ysymyth.github.io/The-Second-Half/ AIは後半戦に突入した。 Deep Learning時代の前半戦では、 “手法” が主役、AlexNetなど手法の工夫で Benchmarkスコアの更新競争が続いた 後半戦では、適切なタスク≒ “Benchmark” を発明することが価値を生む時代に。 どのような Benchmarkを利用し、どのように性能を上げるか?をセットで考える
  15. THE AI CUDA Engineer • LLMに繰り返し最適なCUDA Kernelを考えさせ、実行時間計測することで pytorchのもともとのコードよりもさらなる高速化を行う ◦ 実行時間計測のために用いていた

    BenchmarkであるKernelBenchの脆弱性がつかれて、 スコアをHackされてしまうという気づきも得た https://sakana.ai/ai-cuda-engineer/
  16. ALE-Bench - NeurIPS • AtCoder社と協力し開発したAlgorithm Engineering Benchmark • 過去のAtCoder Heurstic

    Contest (AHC)を元に作成された、 物流の最適化や工場生産計画といった、 現実社会の産業課題に直結する最適化問題 を扱う https://sakana.ai/ale-bench-jp/
  17. ALE-Agent - NeurIPS • Benchmark作成とともに、最適化問題を解く Agentを開発。 • 評価用にAtCoder社と共同開発した ALE-Bench上で性能を磨き、 AtCoder

    World Tour Finals 2025にて、世界5位相 当のスコアを獲得。トップレベルの人間に迫る解決策を AIが自律的に発見できることを示した。 https://x.com/SakanaAILabs/status/1945846213154353496
  18. まとめ Sakana AIの特徴である、Nature Inspired Approachを用いた 基盤モデル開発・AI Agent構築について紹介した。 • モデルを組み合わせて集合知を実現する ◦

    複数の強みを持ち合わせた新しいモデルの作成 ◦ 複数のモデルを組み合わせて、凌駕する Performanceを達成 • AI Agent Workflow構築し、自己改善する ◦ AI Scientistによる論文ネタアイデアと実験探索 ◦ ADAS, DGMによるコードの自己改善 • Benchmark作成 ◦ 生成AI研究が進むべき道を提案。 解きたいタスクをLLMが探索可能な形に。
  19. まとめ Sakana AIの特徴である、Nature Inspired Approachを用いた 基盤モデル開発・AI Agent構築について紹介した。 • モデルを組み合わせて集合知を実現する ◦

    複数の強みを持ち合わせた新しいモデルの作成 ◦ 複数のモデルを組み合わせて、凌駕する Performanceを達成 • AI Agent Workflow構築し、自己改善する ◦ AI Scientistによる論文ネタアイデアと実験探索 ◦ ADAS, DGMによるコードの自己改善 • Benchmark作成 ◦ 生成AI研究が進むべき道を提案。 解きたいタスクをLLMが探索可能な形に。 進化的アルゴリズムによ る探索 MCTS, 進化的アルゴリ ズムで探索 木探索 進化的アルゴリズム・木 探索