Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Google DeepMind’s Game AI

Avatar for tt1717 tt1717
November 18, 2025

[論文サーベイ] Survey on Google DeepMind’s Game AI

[論文サーベイ] Survey on Google DeepMind’s Game AI
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Genie: Generative Interactive Environments,
Jake Bruce et al. (Google DeepMind et al.)
[ICML'24 Best paper] (Cited by: 344 )
2.Scaling Instructable Agents Across Many Simulated Worlds,
Maria Abi Raad et al. (Google DeepMind et al.)
[arXiv'2404] (Cited by: 52 )

Avatar for tt1717

tt1717

November 18, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. 1/21 Survey on Google DeepMind’s Game AI タイトル 学会 著者/所属

    引用数 Genie: Generative Interactive Environments [ICML'24] Jake Bruce et al. (Google DeepMind et al.) 344 Scaling Instructable Agents Across Many Simulated Worlds [arXiv'2404] Maria Abi Raad et al. (Google DeepMind et al.) 52 2025/11/19 Best Paper
  2. 5/21 Genie model - Video Tokenizer - 入力された動画の各フレームを,離散的なトークン列に変換・圧縮する - Latent

    Action Model - ラベルなし動画の連続するフレーム間の変化をとらえ,変化を引き起こした「潜在的 アクション」を自動で推論する - Dynamics Model - ビデオトークンと推論されたアクションを入力として,次のフレームを予測する
  3. 6/21 Latent action model - Encoder-Decoder構造によるアクションの抽出 Encoder:過去フレーム系列x 1:t と未来のフレームx t+1

    の両方を入力とし,その差分から潜 在アクションa~ t を出力する Decoder:過去フレーム系列x 1:t と潜在アクションa~ t を使って,未来のフレームx^ t+1 を再 構成するように学習する - アクションの離散化 - 学習されるアクションの種類を|A|=8として限定する - コントローラーのような離散的なアクションを実現する
  4. 7/21 Video Tokenizer - Encoder-Decoder構造による動画の圧縮・復元 Encoder:動画フレーム系列x 1:T を入力とし,これを離散的なトークン系列z 1:T に変換する

    Decoder:変換されたトークン系列z 1:T から元の動画フレームx^ 1:T を再構成するように学 習する - ST-ViViTによる時間的文脈の組み込み - EncoderとDecoderの両方に時空間トランスフォーマーを採用 - これにより,ある時刻tのトークンz t を生成する際に,それ以前のフレーム系列x 1:t の 動きの情報が考慮され,時間的に一貫したトークン表現を獲得する
  5. 8/21 Dynamics model - Decoder-only MaskGIT Transformer - デコーダーのみで構成されるMaskGIT Transformerを採用

    - 過去のフレームトークン系列z 1:t-1 と潜在アクション系列a~ 1:t-1 を入力として受け取 る - 未来フレームのトークン予測 - 学習時には入力トークンの一部をマスクした上で,次の時刻のフレームトークンz^ t を予測する - このz^ t と正解トークンであるz t との交差エントロピー誤差を最小化するように学習 する
  6. 9/21 Genie Inference - Step1:初期フレームのトークン化 - ユーザーがプロンプトとして初期画像x 1 を入力し,Video TokenizerのEncoderが最初のフレーム

    トークンz 1 を生成する - Step2:ユーザーのアクション入力と次フレームの予測 - ユーザーが8種類の中からアクションa 1 を選択し,対応するアクション埋め込みa~ 1 に変換される - Dynamics Modelがフレームトークンz 1 とアクション埋め込みa~ 1 を受け取り,次のフレームトー クンz^ 2 を予測する - Step3:フレームのデコードとプロセスの反復 - 予測されたトークンz^ 2 をVideo TokenizerのDecoderに入力し,出力画像x^ 2 を生成 - 予測されたトークンz^ 2 を入力として,Step2とStep3のプロセスを繰り返し,ユーザーはフレー ムごとに環境を操作することでプレイ動画を生成する
  7. 12/21 Results - パララックス(視差効果)のシミュレーション - 2Dゲームで奥行きを表現するときに使われる視差効果のシミュレーションを明示的 に教えることなく獲得した - 前景と背景の移動速度差 -

    生成画像をプロンプト入力し,左に移動するアクションを与える - その結果,手前にある前景は大きく動き,奥にある背景はゆっくり動くという,視点 移動に伴う見え方の変化を再現した
  8. 13/21 Future Work - 課題①:長期的な一貫性の向上とハルシネーションの抑制 - 自己回帰モデルの性質上,長時間プレイすると非現実的な未来を生成する場合がある - より物理法則に忠実な環境を維持する仕組みが求められる -

    課題②:記憶長(コンテキスト長)の拡張 - 16フレーム(1.6秒)の記憶に制限されており,それ以前の出来事を忘れる - 長時間のプレイでも環境の一貫性を保つため,より長期的な記憶メカニズムの導入が 必要となる - 課題③:リアルタイムなインタラクション速度の実現 - 生成速度は1FPSであり,快適なプレイには不十分である - モデルの軽量化や推論の最適化を進め,リアルタイム操作が可能で30FPS以上のフ レームレートを目指す必要がある
  9. - 言語と行動のギャップ(モラベックのパラドックス) - 現代のAIは言語処理やプログラミングにおいて高度な能力を持つが,物理的な世界で「見て,行動する」 能力は人間よりはるかに劣っている - ロボット工学の限界とシミュレーションの可能性 - 実世界ロボットでのデータ収集はコストが高く,環境の多様性に限界がある -

    一方で,3Dシミュレーションやビデオゲームは,多様な環境を低コストかつ大規模に提供できる - 汎用的なエージェントの不在 - これまでのゲームAI(AlphaGoなど)や強化学習エージェントは,特定の環境に特化しており,未知の環 境や多様なタスクへの汎用性が欠けていた 14/21 Background
  10. 15/21 Objective - 多様な3D環境で動作するエージェントの開発 - 任意の3D環境において,自然言語の指示に従ってタスクを遂行する汎用エージェントを構築する - 人間と同じインターフェースによる操作 - ゲームごとの特別なAPI(内部状態へのアクセス)は使用しない

    - 入力は「画像と指示」,出力は「キーボードとマウス」のみに制限 - これによりゲーム環境ごとの個別実装を不要にし,多様なゲーム環境への適用を可能にする - 学習の相乗効果とスケーリング - 多様な環境で学習することで,個別の環境で学習するよりもロバストで,新しい環境への適応能力が高い エージェントを目指す
  11. 16/21 Contributions - 多種多様な世界での学習 - 4つの研究用環境と7つの商用ビデオゲームを含む,10以上の全く異なる3D環境でエージェントを学習さ せ,動作させることに成功した - ゼロショットでの汎化性能の確認 -

    学習に含まれていない未知のゲーム環境においても,エージェントが基本的なナビゲーションや操作を実 行できる能力を示した(ゼロショット転移) - 特化型エージェントに匹敵する性能 - 複数の環境で訓練された汎用モデル(SIMA)は,特定の環境のみで訓練された専門エージェントと比較し ても遜色のない,あるいは特定タスクでは上回る性能を発揮した
  12. 17/21 Overview(Data & Environments) - 商用ゲームと研究用環境のハイブリッド利用 - No Man’s SkyやTeardownなどの商用ビデオゲームと物理演

    算を重視した研究用環境(ProcTHORなど)の双方を使用 - 画風もゲーム性も全く異なる環境を組み合わせることで,汎 用性を担保 - 統一されたデータ形式 - すべての環境から以下の3つをペアにしてデータセット構築 1.画像(Image):画面のピクセル情報 2.言語指示(Text):「葉っぱを拾え」などの自然言語 3.行動(Action):人間が行ったキーボードとマウスの操作履歴 - 人間のプレイデータ収集(Data Collection) - 人間が実際に環境内でタスクを達成したプレイログを収集 - シングルプレイに加え,2人1組(指示役と操作役)での協 力プレイなど,言語と行動が紐づくデータを構築
  13. 18/21 Overview(Agents & Evaluation) - 人間互換のインターフェース - エージェントへの入力は「画像」と「言語指示」のみ - エージェントの出力は「キーボードとマウス操作」のみ

    - APIや内部状態を使用せず,人間と同じ条件で環境と相互作 用することで汎用性を確保 - 模倣学習(Behavioral Cloning) - 人間のプレイログを教師データとし,「画面と言語指示から ,人間がどう操作したか」を学習 - 環境ごとの個別チューニングを行わず,単一のモデルであら ゆる環境の操作を学習 - 事前学習済みモデルの活用 - 視覚情報の理解を早めるため,強力なモデルをエンコーダと して組み込む - 画像認識には「SPARC」,動的な時系列理解にはビデオ生 成モデルの「Phenaki」を使用 - 人間による評価(Human Evaluation) - 商用ゲームなどには任意の言語指示に対する自動判定機能が ないため,評価も人間が行う - エージェントのプレイ画面をみて,「指示の意図通りに行動 できたか」を目視で判定する
  14. 20/21 Genie: - 世界モデルによる2Dゲーム生成 Conclusion SIMA: - 言語指示で多様な3Dゲームをプレイする汎用エージェント ❖ 傾向と今後

    ➢ 3Dゲーム生成に拡張される?→Genie2で実現 ➢ 数分の高解像な生成?→Genie3で実現 ➢ 数時間単位での生成へ挑戦?(Genie3のLimitationsに記載あり)