[論文サーベイ] Survey on Google DeepMind’s Game AI

1/21 Survey on Google DeepMind’s Game AI タイトル学会著者/所属
引用数 Genie: Generative Interactive Environments [ICML'24] Jake Bruce et al. (Google DeepMind et al.) 344 Scaling Instructable Agents Across Many Simulated Worlds [arXiv'2404] Maria Abi Raad et al. (Google DeepMind et al.) 52 2025/11/19 Best Paper

- 言語・画像分野における生成AIの発展 - ChatGPTやText-to-Imageなどの生成AIが普及し，成功を収めている - 動画生成モデルが抱える限界 - 動画生成は視聴が主であり，ユーザーが介入できるインタラクションが欠けている - インタラクション実現への障壁
- 従来では「行動ラベル付きデータ」が必須であり，ゲームプレイ動画などの「ラベルなしデータ」を活用して学習することが困難 2/21 Background

- 生成インタラクティブ環境の実現 - 「視聴」だけの動画生成を超え，「プレイ」できる環境を生成する - 行動ラベルなしデータでの学習 - ラベルなし動画から，フレーム間の変化のみをヒントに「潜在的アクション」を学習する -
多様なプロンプトからの環境生成 - 生成画像，手描き，写真などの画像からインタラクティブな世界を生成する 3/21 Objective

- 基盤ワールドモデル「Genie」の提案 - 画像プロンプトからプレイ可能な環境を生成する，新しい枠組みを提示 - 潜在的アクションの学習手法 - 動画のピクセル変化から直接，アクションを潜在空間として学習するモデルを確立 - 手法の高い汎化性能を実証
- 2Dゲーム動画に限らず，ロボット動画のような異なるドメインでも手法の有効性を実証 4/21 Contributions

5/21 Genie model - Video Tokenizer - 入力された動画の各フレームを，離散的なトークン列に変換・圧縮する - Latent
Action Model - ラベルなし動画の連続するフレーム間の変化をとらえ，変化を引き起こした「潜在的アクション」を自動で推論する - Dynamics Model - ビデオトークンと推論されたアクションを入力として，次のフレームを予測する

6/21 Latent action model - Encoder-Decoder構造によるアクションの抽出 Encoder：過去フレーム系列x 1:t と未来のフレームx t+1
の両方を入力とし，その差分から潜在アクションa~ t を出力する Decoder：過去フレーム系列x 1:t と潜在アクションa~ t を使って，未来のフレームx^ t+1 を再構成するように学習する - アクションの離散化 - 学習されるアクションの種類を|A|=8として限定する - コントローラーのような離散的なアクションを実現する

7/21 Video Tokenizer - Encoder-Decoder構造による動画の圧縮・復元 Encoder：動画フレーム系列x 1:T を入力とし，これを離散的なトークン系列z 1:T に変換する
Decoder：変換されたトークン系列z 1:T から元の動画フレームx^ 1:T を再構成するように学習する - ST-ViViTによる時間的文脈の組み込み - EncoderとDecoderの両方に時空間トランスフォーマーを採用 - これにより，ある時刻tのトークンz t を生成する際に，それ以前のフレーム系列x 1:t の動きの情報が考慮され，時間的に一貫したトークン表現を獲得する

8/21 Dynamics model - Decoder-only MaskGIT Transformer - デコーダーのみで構成されるMaskGIT Transformerを採用
- 過去のフレームトークン系列z 1:t-1 と潜在アクション系列a~ 1:t-1 を入力として受け取る - 未来フレームのトークン予測 - 学習時には入力トークンの一部をマスクした上で，次の時刻のフレームトークンz^ t を予測する - このz^ t と正解トークンであるz t との交差エントロピー誤差を最小化するように学習する

9/21 Genie Inference - Step1：初期フレームのトークン化 - ユーザーがプロンプトとして初期画像x 1 を入力し，Video TokenizerのEncoderが最初のフレーム
トークンz 1 を生成する - Step2：ユーザーのアクション入力と次フレームの予測 - ユーザーが8種類の中からアクションa 1 を選択し，対応するアクション埋め込みa~ 1 に変換される - Dynamics Modelがフレームトークンz 1 とアクション埋め込みa~ 1 を受け取り，次のフレームトークンz^ 2 を予測する - Step3：フレームのデコードとプロセスの反復 - 予測されたトークンz^ 2 をVideo TokenizerのDecoderに入力し，出力画像x^ 2 を生成 - 予測されたトークンz^ 2 を入力として，Step2とStep3のプロセスを繰り返し，ユーザーはフレームごとに環境を操作することでプレイ動画を生成する

10/21 Results Hand-drawn-Sketch - データセットは2Dゲームの動画のみ - 生成画像，手描きのスケッチ，写真などの「データセットに全く含まれない」未知画像を入力している - いずれのプロンプトに対しても，キャラクターが一貫してゲームのように動作することを確認 Real-world-Photo
Text-to-Image（Imagen2） Prompt

11/21 Results Up（↑）の行動を選択 - 行動ラベルを含まない実世界ロボットアームの動画データセット - 同一アクションを繰り返し入力するとアームの動きだけでなく，チップス袋のリアルな変形までをシミュレートした - 物体の物理的な特性（柔らかさ，変形など）を物理エンジンなしに，ピク
セル情報から学習可能であることを実証したチップス袋の変形

12/21 Results - パララックス（視差効果）のシミュレーション - 2Dゲームで奥行きを表現するときに使われる視差効果のシミュレーションを明示的に教えることなく獲得した - 前景と背景の移動速度差 -
生成画像をプロンプト入力し，左に移動するアクションを与える - その結果，手前にある前景は大きく動き，奥にある背景はゆっくり動くという，視点移動に伴う見え方の変化を再現した

13/21 Future Work - 課題①：長期的な一貫性の向上とハルシネーションの抑制 - 自己回帰モデルの性質上，長時間プレイすると非現実的な未来を生成する場合がある - より物理法則に忠実な環境を維持する仕組みが求められる -
課題②：記憶長（コンテキスト長）の拡張 - 16フレーム（1.6秒）の記憶に制限されており，それ以前の出来事を忘れる - 長時間のプレイでも環境の一貫性を保つため，より長期的な記憶メカニズムの導入が必要となる - 課題③：リアルタイムなインタラクション速度の実現 - 生成速度は1FPSであり，快適なプレイには不十分である - モデルの軽量化や推論の最適化を進め，リアルタイム操作が可能で30FPS以上のフレームレートを目指す必要がある

- 言語と行動のギャップ（モラベックのパラドックス） - 現代のAIは言語処理やプログラミングにおいて高度な能力を持つが，物理的な世界で「見て，行動する」能力は人間よりはるかに劣っている - ロボット工学の限界とシミュレーションの可能性 - 実世界ロボットでのデータ収集はコストが高く，環境の多様性に限界がある -
一方で，3Dシミュレーションやビデオゲームは，多様な環境を低コストかつ大規模に提供できる - 汎用的なエージェントの不在 - これまでのゲームAI（AlphaGoなど）や強化学習エージェントは，特定の環境に特化しており，未知の環境や多様なタスクへの汎用性が欠けていた 14/21 Background

15/21 Objective - 多様な3D環境で動作するエージェントの開発 - 任意の3D環境において，自然言語の指示に従ってタスクを遂行する汎用エージェントを構築する - 人間と同じインターフェースによる操作 - ゲームごとの特別なAPI（内部状態へのアクセス）は使用しない
- 入力は「画像と指示」，出力は「キーボードとマウス」のみに制限 - これによりゲーム環境ごとの個別実装を不要にし，多様なゲーム環境への適用を可能にする - 学習の相乗効果とスケーリング - 多様な環境で学習することで，個別の環境で学習するよりもロバストで，新しい環境への適応能力が高いエージェントを目指す

16/21 Contributions - 多種多様な世界での学習 - 4つの研究用環境と7つの商用ビデオゲームを含む，10以上の全く異なる3D環境でエージェントを学習させ，動作させることに成功した - ゼロショットでの汎化性能の確認 -
学習に含まれていない未知のゲーム環境においても，エージェントが基本的なナビゲーションや操作を実行できる能力を示した（ゼロショット転移） - 特化型エージェントに匹敵する性能 - 複数の環境で訓練された汎用モデル（SIMA）は，特定の環境のみで訓練された専門エージェントと比較しても遜色のない，あるいは特定タスクでは上回る性能を発揮した

17/21 Overview（Data & Environments） - 商用ゲームと研究用環境のハイブリッド利用 - No Man’s SkyやTeardownなどの商用ビデオゲームと物理演
算を重視した研究用環境（ProcTHORなど）の双方を使用 - 画風もゲーム性も全く異なる環境を組み合わせることで，汎用性を担保 - 統一されたデータ形式 - すべての環境から以下の3つをペアにしてデータセット構築 1．画像（Image）：画面のピクセル情報 2．言語指示（Text）：「葉っぱを拾え」などの自然言語 3．行動（Action）：人間が行ったキーボードとマウスの操作履歴 - 人間のプレイデータ収集（Data Collection） - 人間が実際に環境内でタスクを達成したプレイログを収集 - シングルプレイに加え，2人1組（指示役と操作役）での協力プレイなど，言語と行動が紐づくデータを構築

18/21 Overview（Agents & Evaluation） - 人間互換のインターフェース - エージェントへの入力は「画像」と「言語指示」のみ - エージェントの出力は「キーボードとマウス操作」のみ
- APIや内部状態を使用せず，人間と同じ条件で環境と相互作用することで汎用性を確保 - 模倣学習（Behavioral Cloning） - 人間のプレイログを教師データとし，「画面と言語指示から，人間がどう操作したか」を学習 - 環境ごとの個別チューニングを行わず，単一のモデルであらゆる環境の操作を学習 - 事前学習済みモデルの活用 - 視覚情報の理解を早めるため，強力なモデルをエンコーダとして組み込む - 画像認識には「SPARC」，動的な時系列理解にはビデオ生成モデルの「Phenaki」を使用 - 人間による評価（Human Evaluation） - 商用ゲームなどには任意の言語指示に対する自動判定機能がないため，評価も人間が行う - エージェントのプレイ画面をみて，「指示の意図通りに行動できたか」を目視で判定する

19/21 Results - SIMAのゲームプレイ動画

20/21 Genie： - 世界モデルによる2Dゲーム生成 Conclusion SIMA： - 言語指示で多様な3Dゲームをプレイする汎用エージェント ❖ 傾向と今後
➢ 3Dゲーム生成に拡張される？→Genie2で実現 ➢ 数分の高解像な生成？→Genie3で実現 ➢ 数時間単位での生成へ挑戦？（Genie3のLimitationsに記載あり）

21/21 References ❏ Genie ❏ SIMA

[論文サーベイ] Survey on Google DeepMind’s Game AI

[論文サーベイ] Survey on Google DeepMind’s Game AI

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

1/21 Survey on Google DeepMind’s Game AI タイトル学会著者/所属

5/21 Genie model - Video Tokenizer - 入力された動画の各フレームを，離散的なトークン列に変換・圧縮する - Latent

6/21 Latent action model - Encoder-Decoder構造によるアクションの抽出 Encoder：過去フレーム系列x 1:t と未来のフレームx t+1

7/21 Video Tokenizer - Encoder-Decoder構造による動画の圧縮・復元 Encoder：動画フレーム系列x 1:T を入力とし，これを離散的なトークン系列z 1:T に変換する

8/21 Dynamics model - Decoder-only MaskGIT Transformer - デコーダーのみで構成されるMaskGIT Transformerを採用

9/21 Genie Inference - Step1：初期フレームのトークン化 - ユーザーがプロンプトとして初期画像x 1 を入力し，Video TokenizerのEncoderが最初のフレーム

12/21 Results - パララックス（視差効果）のシミュレーション - 2Dゲームで奥行きを表現するときに使われる視差効果のシミュレーションを明示的に教えることなく獲得した - 前景と背景の移動速度差 -

13/21 Future Work - 課題①：長期的な一貫性の向上とハルシネーションの抑制 - 自己回帰モデルの性質上，長時間プレイすると非現実的な未来を生成する場合がある - より物理法則に忠実な環境を維持する仕組みが求められる -

16/21 Contributions - 多種多様な世界での学習 - 4つの研究用環境と7つの商用ビデオゲームを含む，10以上の全く異なる3D環境でエージェントを学習させ，動作させることに成功した - ゼロショットでの汎化性能の確認 -

17/21 Overview（Data & Environments） - 商用ゲームと研究用環境のハイブリッド利用 - No Man’s SkyやTeardownなどの商用ビデオゲームと物理演

18/21 Overview（Agents & Evaluation） - 人間互換のインターフェース - エージェントへの入力は「画像」と「言語指示」のみ - エージェントの出力は「キーボードとマウス操作」のみ

19/21 Results - SIMAのゲームプレイ動画

20/21 Genie： - 世界モデルによる2Dゲーム生成 Conclusion SIMA： - 言語指示で多様な3Dゲームをプレイする汎用エージェント ❖ 傾向と今後

21/21 References ❏ Genie ❏ SIMA