フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション Fumitoshi Ogata

1 章 : 仮想世界から現
実世界へ、シミュレーターの現在地

ゲームにおけるAIのNPCへの活用ユースケースとして、NPCがフィールドを自由に駆け回り、自由に話をするという世界観は古くからあったが、GPTの登場によって、その動きは広がっている。 Radiant AIは、ゲーム内のNPC（ノンプレイヤーキャラクター）の行動をより自然で動的なものにするために開発された人工知能システム。主にThe Elder Scrollsシリーズで使用されており、NPCに独自の目標や行動パターンを与えることで、よりリアルな世界観を作り出すことを目的としています。 The Elder
Scrolls IV: Oblivion Xbox 2007年7月26日 Teammatesは、2024年のNeo NPCプロジェクトの進化版として開発された、生成AI駆動の実験的なゲーム体験です。一人称シューティングゲーム形式で、リアルタイム音声コマンドに反応する高度な AI機能を持つNPCが特徴です。 1-1. AIは古くからゲームのNPCとして活躍してきた 1-1. AIは古くからゲームのNPCとして活躍してきた Packman x モンテカルロ木探索

MLASを用いたSmallville型シミュレーション 1. Smallvilleとは何か：AI社会シミュレーションの革命 2023年、スタンフォード大学とGoogleの研究チームが発表した「Generative Agents: Interactive Simulacra of Human Behavior」は、AI分野における社会シミュレーションの概念を根本的に変革しました。このプロジェ
クトでは、The Simsにインスパイアされた仮想世界「Smallville」に25のAIエージェントを配置し、人間らしい行動をシミュレートする画期的な実験が行われました。従来のコンピュータシミュレーションと決定的に異なるのは、エージェントの行動が事前にプログラムされたルールに従うのではなく、大規模言語モデル（LLM）による自然言語処理によって動的に生成されることです。これにより、研究者が予想もしなかった複雑で自然な社会的相互作用が創発的に現れるようになりました。開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデルリアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作リアルタイムインタラクティブ機能を持つ初の汎用世界モデルフォトリアリスティックから想像上の世界まで幅広く生成可能プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられているリリース時期: 2025年8月5日発表(限定研究プレビュー) こうしたNPCの仕組みの利活用は、MLASを用いたSmallville型シミュレーションのように、実際には、エンターテインメントを超えて、社会行動のシミュレーションとしての用途に広げられている。 1-2. ゲームAIは社会のシミュレーションとしても役立っている 1-2. ゲームAIは社会のシミュレーションとしても役立っている

開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成 RGB-D(カラー+深度)ビデオ生成フレームワーク 3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能ネイティブ3D再構成機能を持ち、COLMAPなどの追加ツール不要で3D出力が可能超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応)
Stanford WorldScoreベンチマークで1位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写+Unreal Engineの合成データ)で訓練リリース時期: 2025年9月2日開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする自律走行車(AV)とロボット向けに設計テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成モデルファミリー: Nano: リアルタイム、低遅延推論とエッジデプロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) 仮想から現実へシミュレーションは仮想空間だけにとどまらず、現実世界におけるロボットの制御などにも役立つユースケースが登場している。フィジカルAIと呼ばれるこの分野では、仮想空間で学習したモデルを現実世界のロボットに展開する取り組みが進んでいる。 1-3. シミュレーションからフィジカルAIへ - 仮想から現実へ 1-3. シミュレーションからフィジカルAIへ - 仮想から現実へ

言語だけでは不十分ロボット戦車が言語モデルで動作する事例があるが、複雑な物理的環境での動作や細かい制御には対応できない。言語モデルは高レベルの意思決定には優れているが、センサーデータの処理やリアルタイム制御には限界がある。 1-4. 現実世界の人間行動をモデル化するMESA 1-4. 現実世界の人間行動をモデル化するMESA

言語だけでは不十分ロボット戦車が言語モデルで動作する事例があるが、複雑な物理的環境での動作や細かい制御には対応できない。言語モデルは高レベルの意思決定には優れているが、センサーデータの処理やリアルタイム制御には限界がある。 1-5. LLMの限界 - 言語だけでは不十分 1-5. LLMの限界 -
言語だけでは不十分

インターネット上の情報を全て読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト満4歳になるまでに起きている時間（1.6万時間）と、視覚から得るデータ量を基にしています。視神経の数（200万本、1本＝1バイト）と、その伝送頻度（毎秒10回）から算出された数字５０倍
4歳児インターネット上のすべてのデータは、4歳児の経験に満たないインターネット上のテキストデータは膨大だが、実世界の物理的経験としては限定的である。人間が4歳までに獲得する身体的・空間的理解は、現在のAIが持つデータでは到底カバーできない。これが、現実世界で動作するAIの大きな課題となっている。 1-6. データの質と量の課題 1-6. データの質と量の課題

一つの巨大なモデルですべてを解決するのではなく、複数の専門化されたモデルを接続し、それぞれの強みを活かすアーキテクチャが重要になっている。視覚、言語、物理理解、制御など、各タスクに最適化されたモデルを組み合わせることで、より堅牢なシステムが構築できる。 1-7. 単一モデルから複数の専門モデルへ - モジュラーアーキテクチャの必要性 1-7. 単一モデルから複数の専門モデルへ -
モジュラーアーキテクチャの必要性

MESAというプロジェクトの中では現実世界の人間のコピーを作るための基盤を作成している。これは単なるチャットボットではなく、人間の意思決定プロセスや行動パターンを再現する試みである。 1-8 現実世界の人間行動をモデル化するMESA 1-8 現実世界の人間行動をモデル化するMESA

2 章 : M E S A を活用
して、シミュレーションを実践してみる

人間の行動をデジタル空間で再現することで、様々なシナリオのシミュレーションが可能になる。都市計画、施設設計、サービス設計など、実際に試すにはコストや時間がかかるケースでの事前検証に活用できる。また、ロボットが人間と協調して働く環境を設計する際の基礎データとしても重要である。 2-1. 人間のコピーを作る目的と意義 2-1. 人間のコピーを作る目的と意義

1 . 名前（日本語の一
般的な苗字と名前の組み合わせ、例：田中太郎、佐藤花子など） 2 . 年齢（ 2 0 - 7 0 歳の範囲の整数） 3 . 出身地（日本の都道府県、または海外の国名） 4 . 学歴（最終学歴、大学名や専門学校名など具体的に） 5 . 職業経歴（過去の仕事や現在の職業、職種を具体的に） 6 . 趣味・嗜好（ 3 - 5 個の具体的な趣味） 7 . 宗教・信仰（無宗教、仏教、キリスト教、神道など、または具体的な宗派） 8 . 家族構成（配偶者の有無、子供の有無、同居家族など） 9 . 性格の詳細説明（ 3 - 4 文程度で詳しく） 1 0 . 性格特性（ 0 - 1 の範囲の数値、小数点以下 2 桁まで）： - 社交性（ s o c i a b i l i t y ） - 活動的さ（ e n e r g y ） - ルーチン重視度（ r o u t i n e ） - 好奇心（ c u r i o s i t y ） - 共感性（ e m p a t h y ） - 責任感（ r e s p o n s i b i l i t y ） - 創造性（ c r e a t i v i t y ） - 論理的思考（ l o g i c ） 1 1 . 価値観・信念（人生観や大切にしている価値観） 1 2 . 目標・夢（将来の目標や夢） 1 3 . 日課（各時間帯で 2 つまでの場所）各エージェントに固有の性格、価値観、知識、経験を設定する。例えば「45歳の物流施設マネージャー、効率重視、20年の現場経験」といった具体的なペルソナを定義することで、そのエージェントの意思決定や行動パターンに一貫性を持たせる。 2-2. ペルソナの作成 - 個性と背景の定義 2-2. ペルソナの作成 - 個性と背景の定義

大目標中目標小目標施設全体の効率的な運営「次の荷物を取りに行く」「障害物を避ける」午前中に50個の荷物を指定エリアに配置 1 . 名
前（日本語の一般的な苗字と名前の組み合わせ、例：田中太郎、佐藤花子など） 2 . 年齢（ 2 0 - 7 0 歳の範囲の整数） 3 . 出身地（日本の都道府県、または海外の国名） 4 . 学歴（最終学歴、大学名や専門学校名など具体的に） 5 . 職業経歴（過去の仕事や現在の職業、職種を具体的に） 6 . 趣味・嗜好（ 3 - 5 個の具体的な趣味） 7 . 宗教・信仰（無宗教、仏教、キリスト教、神道など、または具体的な宗派） 8 . 家族構成（配偶者の有無、子供の有無、同居家族など） 9 . 性格の詳細説明（ 3 - 4 文程度で詳しく） 1 0 . 性格特性（ 0 - 1 の範囲の数値、小数点以下 2 桁まで）： - 社交性（ s o c i a b i l i t y ） - 活動的さ（ e n e r g y ） - ルーチン重視度（ r o u t i n e ） - 好奇心（ c u r i o s i t y ） - 共感性（ e m p a t h y ） - 責任感（ r e s p o n s i b i l i t y ） - 創造性（ c r e a t i v i t y ） - 論理的思考（ l o g i c ） 1 1 . 価値観・信念（人生観や大切にしている価値観） 1 2 . 目標・夢（将来の目標や夢） 1 3 . 日課（各時間帯で 2 つまでの場所） LLMは大目標から中目標への分解、状況に応じた優先順位付けを担当し、小目標の実行は専門的なモジュールが担う。 2-3. 目標から行動を作成する - 階層的タスク分解 2-3. 目標から行動を作成する - 階層的タスク分解

LLMは言語に特化したモデル (資料) LLM (資料) LLM 【 Large Language Models (LLM)
】 │ ├── プロプライエタリ ( 企業提供 ) │ ├── GPT-4 / GPT-4 Turbo (OpenAI, 2023) │ ├── GPT-4o / GPT-4o mini (OpenAI, 2024) │ ├── o1 / o1-mini / o1-pro (OpenAI, 2024/2025) ← 推論特化 │ ├── Claude 3 Opus / Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 3.5 Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2025) │ ├── Gemini 1.5 Pro / Flash (Google, 2024) │ ├── Gemini 2.0 Flash (Google, 2024) │ ├── Gemini 2.5 Pro (Google, 2025) │ └── Grok 2 / Grok 3 (xAI) │ ├── オープンソース - 大規模 (70B 以上 ) │ ├── LLaMA 3 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.1 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.3 (70B) (Meta, 2024) │ ├── Qwen2.5 (0.5B 〜 72B) (Alibaba, 2024) │ ├── Qwen3 (Alibaba, 2025) │ ├── DeepSeek-V2 / V3 (DeepSeek, 2024/2025) │ ├── Mistral Large (Mistral AI) │ └── Yi-Large (01.AI) │ ├── オープンソース - 中規模 (7B 〜 70B) │ ├── Mistral 7B / 8x7B / 8x22B (Mistral AI) │ ├── Mixtral 8x7B / 8x22B (Mistral AI) ←MoE │ ├── Command R / R+ (Cohere) │ ├── Gemma 2 (9B, 27B) (Google) │ ├── Gemma 3 (4B, 27B) (Google, 2025) │ └── Nemotron (NVIDIA) │ ├── オープンソース - 小規模 (7B 以下 ) │ ├── Phi-3 / Phi-3.5 / Phi-4 (Microsoft) │ ├── Gemma (2B, 7B) (Google) │ ├── SmolLM (135M, 360M, 1.7B) (Hugging Face) │ ├── Qwen2.5 (0.5B, 1.5B, 3B, 7B) (Alibaba) │ └── OpenELM (Apple) │ ├── 推論特化 LLM │ ├── o1 / o1-mini / o1-pro (OpenAI) │ ├── QwQ-32B-Preview (Qwen) │ ├── DeepSeek-R1 (DeepSeek, 2025) │ └── Gemini 2.0 Flash Thinking (Google, 2025) │ ├── 日本語特化 LLM │ ├── Sarashina (Stability AI Japan) │ ├── PLaMo (Preferred Networks) │ ├── Japanese StableLM (Stability AI) │ ├── Swallow ( 東京工業大学 ) │ ├── KARAKURI LM ( カラクリ ) │ └── Llama 3 Swallow ( 東京工業大学 ) │ └── 長文脈特化 ├── Claude 3/3.5/4 (200K tokens) (Anthropic) ├── Gemini 1.5 Pro ( 最大 2M tokens) (Google) ├── GPT-4 Turbo (128K tokens) (OpenAI) └── Command R+ (128K tokens) (Cohere)

センサーからの情報を統合し、現在の状況を理解する。視覚情報（カメラ）、位置情報（GPS/SLAM）、物体検出結果などを組み合わせて環境モデルを構築し、次の行動を決定する。この際、静的な環境情報だけでなく、他のエージェント（人間やロボット）の動きも考慮する。 2-4. 周辺環境の把握と行動決定 2-4. 周辺環境の把握と行動決定

L L M は「意図」と「
サブゴール」のみ生成 " キッチンに行って食材を取ってくる " → [ " キッチンに移動 ", " 冷蔵庫に近づく " , " 食材を取る " ] R o u t e k n o w l e d g e ( 手続き的知識 ) M i d - L e v e l で幾何学的計画従来の経路プランニングアルゴリズム（ A* , D i j k s t r a , R R T ）地図データを使った最適経路計算 S u r v e y k n o w l e d g e ( 地図的知識 ) L o w - L e v e l で視覚ベース制御 D I N O v 2 や C L I P などの視覚特徴抽出リアルタイムな障害物認識局所的な軌道修正 L a n d m a r k k n o w l e d g e ( 視覚ランドマーク ) この階層構造により、柔軟な判断と確実な実行を両立させる。 2-5. 階層的ナビゲーション（Hierarchical Navigation）- 戦略と戦術の分離 2-5. 階層的ナビゲーション（Hierarchical Navigation）- 戦略と戦術の分離

H i g h - L e v e l
P l a n n e r ← L l a m a ( 軽量 ) ( L l a m a - 3 . 2 - 1 B ) M i d - L e v e l N a v i g a t o r ← A* アルゴリズム ( A* P a t h f i n d i n g ) V i s i o n S y s t e m ← D I N O v 2 ( D I N O v 2 F e a t u r e E x t r a c t o r ) L o w - L e v e l C o n t r o l l e r ← L l a m a + V i s i o n ( L l a m a - 3 . 2 - 1 B + D I N O v 2 ) この階層構造により、柔軟な判断と確実な実行を両立させる。 2-5. 階層的ナビゲーション（Hierarchical Navigation）- 戦略と戦術の分離 2-5. 階層的ナビゲーション（Hierarchical Navigation）- 戦略と戦術の分離

「俯瞰視点での経路決定」一人称視点での行動この階層構造により、柔軟な判断と確実な実行を両立させる。 2-5. 階層的ナビゲーション（Hierarchical Navigation）- 戦略と戦術の分離 2-5. 階層的ナビゲーション（Hierarchical Navigation）-
戦略と戦術の分離

├── 【ビジョンモデル】
│ │ │ ├── Vision Transformer (ViT) 系 │ │ ├── オリジナル ViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer ( 階層的 ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT ( エッジデバイス用 ) │ │ │ ├── CNN ベースモデル（参考： ViT 以前の主流） │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル（ CNN + Transformer ） │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 画像エンコーダー（ VLM の構成要素） │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP Vit （資料）ViT （資料）ViT

2-6. Vision Modelの説明 - セグメンテーションによる環境理解 2-6. Vision Modelの説明 - セグメンテーションによる環境理解
自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション（画像から物体をきりわける）を行った例。画像から「床」「壁」「荷物」「人」などの領域を識別するセグメンテーションモデルを使用。DINOv2やSAM（Segment Anything Model）などの自己教師あり学習ベースのモデルは、少ないラベル付きデータでも高精度な領域分割が可能。これにより、ロボットは「通行可能な領域」「注意すべき物体」を識別できる。

Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
2-7. VLM（Vision-Language Model）の活用 - 視覚と言語の統合理解 2-7. VLM（Vision-Language Model）の活用 - 視覚と言語の統合理解 GPT-4VやLLaVAなどのVLMは、画像を見て「これは何か」「どうすべきか」を言語で説明できる。例えば、カメラ画像を見て「通路に荷物が落ちているので、拾って脇に寄せるべき」といった状況判断と行動提案を行う。人間との自然な対話インターフェースとしても機能する。

│ ├── 動画理解モデル │
│ ├── VideoMAE ( 動画版 MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ ├── ワールドモデル（理解 + 予測 + プランニング） │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ （資料) WorldModel （資料) WorldModel WorldModels

2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する 2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する V-JEPA（Video Joint-Embedding
Predictive Architecture）は、現在の状態から数秒後の世界の状態を予測する。例えば「このまま進むと荷物にぶつかる」「人が横切りそう」といった予測を行い、事前に回避行動を取ることができる。物理シミュレーションを内包したワールドモデルとして機能する。

一度学習したら終わりではなく、実際の稼働中に得られるデータを使って継続的に改善する。成功した行動パターンは強化され、失敗したケースは修正される。オンライン学習とオフライン学習を組み合わせ、安全性を保ちながら性能を向上させる。 2-9. 継続的学習 - 経験から学び続ける仕組み 2-9. 継続的学習 - 経験から学び続ける仕組み

Sim-to-Real転移仮想空間だけではなく現実空間の行動データを取り込むためのエンコーダーが必要。実世界のセンサーデータ（カメラ画像、LiDAR点群、IMUデータなど）を、シミュレーションで学習したモデルが理解できる形式に変換する。ドメイン適応技術により、仮想と現実のギャップを埋める。 2-11. 現実世界の行動データを取り込むエンコーダー - Sim-to-Real転移 2-11. 現実世界の行動データを取り込むエンコーダー
- Sim-to-Real転移ポーズエンコーダ(Pose Encoders)** - OpenPose、MediaPipe、AlphaPose - 人体の関節位置を検出し、スケルトン表現に変換 - 2D/3D座標系列として時系列データを生成 - 職人の手の動き、身体の姿勢を数値化時空間エンコーダ(Spatiotemporal Encoders)** - 3D CNN(C3D、I3D) - Video Transformer(TimeSformer、VideoMAE) - 動画フレーム全体から動作パターンを抽出 - 時間的な変化と空間的な特徴を同時に捉える軌跡エンコーダ(Trajectory Encoders)** - RNN/LSTM/GRU系 - Temporal Convolutional Networks(TCN) - 工具の移動経路、手の軌跡などの連続的な動きをエンコード - 職人技の「リズム」や「タイミング」を学習視覚: カメラ映像からのポーズ推定触覚: 力覚センサーからの圧力データ音: 作業音(例:木材を削る音) IMU: 加速度・角速度センサー

2-12. エンコーダーの種類 - 多様なモダリティの統合 2-12. エンコーダーの種類 - 多様なモダリティの統合視覚エンコーダー言語エンコーダー
行動エンコーダー物理状態エンコーダーマルチモーダルエンコーダー音声エンコーダー

Sim-to-Real転移仮想空間だけではなく現実空間の行動データを取り込むためのエンコーダーが必要。実世界のセンサーデータ（カメラ画像、LiDAR点群、IMUデータなど）を、シミュレーションで学習したモデルが理解できる形式に変換する。ドメイン適応技術により、仮想と現実のギャップを埋める。模倣学習模倣学習

報酬設計の課題解決強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少ない（Sparse Reward問題）。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 -
報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 There is no line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。

if new_cell_explored: reward += 0.1 # 新しい場所に行ったら褒める if moved_efficiently:
reward += 0.05 # 効率的に動いたら褒める if hit_wall: reward -= 0.1 # 壁にぶつかったら怒る if 全部探索した: reward = 10 else: reward = 0 Sparse Reward スパースな報酬（疎な報酬関数） Shaped Reward シェイプトな報酬（成形された報酬関数）報酬設計の課題解決強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少ない（Sparse Reward問題）。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決

ロボット: 「何すればいいの？」環境: 「100%探索して」ロボット: 「どうやって？」環境: 「...」（報酬0）ロボットの行動:
Forward → Turn Left → Forward → Turn Right → ... (完全にランダム) 結果: Coverage: 10-40%くらいで時間切れ Reward: 0 学習: なし（まだ成功したことがない） Episode 538: ロボット: いつも通りランダムに動く ... Step 450: たまたま100%探索達成！ → Reward: +10 !!! ロボット: 「！！！この行動パターンが正解か！」 Neural Network: この450ステップの行動を記憶 Episode 539: ロボット: 「前回の成功パターンを真似しよう」 → でも完全には再現できない → Reward: 0 Episode 545: ロボット: 「また試す」 → 偶然また成功！ → Reward: +10 Neural Network: 「あ、完全に同じじゃなくても成功できるんだ」「共通パターンを見つけよう」徐々に成功率が上がる: 0% → 5% → 15% → 30% ロボット: 「わかった！系統的に動けばいいんだ」発見した戦略（例）: 1. 部屋を左から右にスキャン 2. 端に着いたら下に移動 3. 右から左にスキャン 4. これを繰り返す ┌─────────┐ │→→→→↓ │ │←←←←↓ │ │→→→→↓ │ │←←←←◦ │ └─────────┘ 成功率: 50-70% 報酬設計の課題解決強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少ない（Sparse Reward問題）。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決

報酬設計の課題解決強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少ない（Sparse Reward問題）。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 -
報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決

3 章 : ワールドモデル
- A I が世界を理解し予測する仕組み

ワールドモデルとは、AIが持つ「世界がどのように動くか」についての内部表現である。人間が頭の中で「ボールを投げたらどこに落ちるか」を予測できるように、AIも物理法則や因果関係を学習し、未来の状態を予測する能力を持つ。これにより、実際に行動する前に「もしこうしたらどうなるか」をシミュレーションできる。 3-1. ワールドモデルの定義 - AIの内なる世界シミュレーター 3-1. ワールドモデルの定義 -
AIの内なる世界シミュレーター

現実世界での試行錯誤は時間もコストもかかり、失敗すれば危険を伴う。ワールドモデルがあれば、頭の中（モデルの中）で何千回も試行を繰り返し、最適な行動を見つけてから実行できる。赤ちゃんが物を落として物理法則を学ぶように、AIも経験から世界のモデルを構築する。 3-2. なぜワールドモデルが必要なのか - 試行錯誤のコスト削減 3-2. なぜワールドモデルが必要なのか -
試行錯誤のコスト削減

- **古典的アプローチ**: 物理エンジン（Unity、Unreal Engine）による明示的なシミュレーション - **モデルベース強化学習**: Dyna、PILCO などの初期的なワールドモデル - **深層学習時代**:
World Models（2018）、Dreamer シリーズ - **基盤モデル時代**: Genie、Sora、NVIDIA Cosmos など大規模ワールドモデル 3-3. ワールドモデルの歴史 - 古典的アプローチからニューラルネットワークへ 3-3. ワールドモデルの歴史 - 古典的アプローチからニューラルネットワークへ

1. **予測（Prediction）**: 現在の状態から未来を予測する 2. **生成（Generation）**: 可能性のある未来のシナリオを複数生成する 3. **計画（Planning）**: 予測を使って最適な行動系列を立案するこれらが統合されることで、AIは「考えてから動く」ことができるようになる。
3-4. ワールドモデルの3つの重要な機能 3-4. ワールドモデルの3つの重要な機能

Sora、Runway、Google Lumiere などのビデオ生成モデルは、単なるエンターテインメントツールではなく、世界の物理法則や因果関係を学習したワールドモデルとしての側面を持つ。「風が吹けば木が揺れる」「水が流れれば物が動く」といった暗黙の知識を、大量の動画データから獲得している。ビデオ予測モデル - 映像から学ぶ世界の法則
ビデオ予測モデル - 映像から学ぶ世界の法則

NVIDIA Cosmosは、ロボティクスと自動運転に特化した世界基盤モデル。実世界の物理現象を高精度でシミュレーションし、センサーデータから未来の状態を予測する。Isaac SimやOmniverseとの統合により、仮想空間での学習を現実世界に転移できる。複数の物理モダリティ（視覚、力覚、音など）を統合した予測が可能。 3-6. NVIDIA Cosmos - フィジカルAIのためのワールドモデル基盤
3-6. NVIDIA Cosmos - フィジカルAIのためのワールドモデル基盤

Meta AI の V-JEPA（Video Joint-Embedding Predictive Architecture）は、動画の一部を隠して「隠れた部分はどうなっているか」を予測することで学習する。人間の教師なしに、動画データだけから物体の動き、遮蔽関係、物理的制約を理解する。これにより、膨大なラベル付けコストを削減しながら、高品質な表現を獲得できる。 3-7.
V-JEPA と自己教師あり学習 - ラベルなしで世界を学ぶ 3-7. V-JEPA と自己教師あり学習 - ラベルなしで世界を学ぶ

Google DeepMindのGenieは、一枚の画像やテキスト説明から、プレイ可能な2Dゲーム環境を生成する。ユーザーの操作に応じて次のフレームを予測し続けることで、インタラクティブな体験を実現。教師なし学習で「操作可能性」の概念を獲得しており、ロボット制御への応用も期待される。 3-8. Genie - 一枚の画像からインタラクティブな世界を生成 3-8. Genie
- 一枚の画像からインタラクティブな世界を生成

Dreamer（v1, v2, v3）は、ワールドモデル内で完全に学習を行う強化学習アルゴリズム。実環境での経験を最小限に抑え、モデル内での想像上の経験（imagined experience）で学習を進める。これにより、サンプル効率が劇的に向上し、危険な試行錯誤を避けられる。Minecraft、Atari、ロボット制御など幅広いタスクで成功。 3-9. ワールドモデルと強化学習の統合 - Dreamerシリーズ
3-9. ワールドモデルと強化学習の統合 - Dreamerシリーズ

ニューラルワールドモデルと従来の物理エンジンを組み合わせるハイブリッドアプローチが注目されている。 - **物理エンジンの強み**: 正確、高速、解釈可能、物理法則の保証 - **ニューラルモデルの強み**: 柔軟、学習可能、複雑な現象のモデル化 3-10. 物理シミュレーションとの融合 -
ハイブリッドアプローチ 3-10. 物理シミュレーションとの融合 - ハイブリッドアプローチ

現実世界は視覚だけでなく、音、触覚、温度、匂いなど多様な感覚情報から成り立つ。次世代のワールドモデルは、これらを統合的に理解し予測する必要がある。 - **例1**: 「ガラスが割れる音」から「破片が散らばる様子」を視覚的に予測 - **例2**: 「物体を掴む力」から「物体の硬さや重さ」を推定 ImageBind、OneFM などのマルチモーダル基盤モデルがこの方向性を示している。
3-11. マルチモーダルワールドモデル - 視覚を超えた統合理解 3-11. マルチモーダルワールドモデル - 視覚を超えた統合理解

- **予測精度**: 未来のフレームをどれだけ正確に予測できるか - **長期予測の安定性**: 何ステップ先まで破綻せずに予測できるか - **因果関係の理解**: 介入（行動）に対する反応を正しく予測できるか -
**サンプル効率**: どれだけ少ないデータで学習できるか - **計算効率**: リアルタイム性、推論速度 - **汎化性能**: 学習時に見ていない状況にも対応できるか 3-12. ワールドモデルの評価指標 - 何をもって良いモデルとするか 3-12. ワールドモデルの評価指標 - 何をもって良いモデルとするか

- **長期予測の難しさ**: 時間が経つほど誤差が累積し、予測が不安定になる - **高次元空間の呪い**: ピクセル空間での予測は計算コストが膨大 - **確率的事象の扱い**: 不確実性をどう表現するか（確定的 vs
確率的モデル） - **Out-of-Distribution問題**: 学習データにない状況での予測精度低下 - **因果関係の抽出**: 相関関係ではなく、真の因果を学習する難しさ 3-13. ワールドモデルの課題 - 複雑な現実世界への適応 3-13. ワールドモデルの課題 - 複雑な現実世界への適応

- **統一ワールドモデル**: あらゆる物理現象を一つのモデルで扱う（水、火、布、固体など） - **階層的ワールドモデル**: 抽象度の異なる複数のモデルの統合（分子レベル〜都市レベル） - **対話的学習**: 人間との対話を通じて世界知識を獲得・修正 -
**生涯学習**: 継続的に新しい概念や法則を学び続けるシステム - **説明可能性**: なぜそう予測したのかを人間に説明できるモデル MESAのような人間行動シミュレーションも、究極的には高度なワールドモデルの上に構築される。物理世界と社会世界を統合的に理解するAIの実現が目標。 3-14. ワールドモデルの未来 - 次の10年で目指すもの 3-14. ワールドモデルの未来 - 次の10年で目指すもの

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション

oggata

More Decks by oggata

Other Decks in Programming

Featured

Transcript

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション Fumitoshi Ogata

1 章 : 仮想世界から現

2 章 : M E S A を活用

1 . 名前（日本語の一

大目標中目標小目標施設全体の効率的な運営「次の荷物を取りに行く」「障害物を避ける」午前中に50個の荷物を指定エリアに配置 1 . 名

LLMは言語に特化したモデル (資料) LLM (資料) LLM 【 Large Language Models (LLM)

L L M は「意図」と「

H i g h - L e v e l

├── 【ビジョンモデル】

2-6. Vision Modelの説明 - セグメンテーションによる環境理解 2-6. Vision Modelの説明 - セグメンテーションによる環境理解

Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision

│ ├── 動画理解モデル │

2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する 2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する V-JEPA（Video Joint-Embedding

2-12. エンコーダーの種類 - 多様なモダリティの統合 2-12. エンコーダーの種類 - 多様なモダリティの統合視覚エンコーダー言語エンコーダー

if new_cell_explored: reward += 0.1 # 新しい場所に行ったら褒める if moved_efficiently:

ロボット: 「何すればいいの？」環境: 「100%探索して」ロボット: 「どうやって？」環境: 「...」（報酬0）ロボットの行動:

3 章 : ワールドモデル

- 古典的アプローチ: 物理エンジン（Unity、Unreal Engine）による明示的なシミュレーション - モデルベース強化学習: Dyna、PILCO などの初期的なワールドモデル - 深層学習時代:

- 予測精度: 未来のフレームをどれだけ正確に予測できるか - 長期予測の安定性: 何ステップ先まで破綻せずに予測できるか - 因果関係の理解: 介入（行動）に対する反応を正しく予測できるか -

- 長期予測の難しさ: 時間が経つほど誤差が累積し、予測が不安定になる - 高次元空間の呪い: ピクセル空間での予測は計算コストが膨大 - 確率的事象の扱い: 不確実性をどう表現するか（確定的 vs