$30 off During Our Annual Pro Sale. View Details »

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション

Avatar for oggata oggata
October 01, 2025

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション

Canva Version(資料の埋め込み動画はこちらをご参照ください)
https://www.canva.com/design/DAG6bKZjCtM/hw6dRlhfjukenMjR5LHRHw/edit?utm_content=DAG6bKZjCtM&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション
https://zenn.dev/oggata/books/69bd97b5d0ede1

MESA(動画)
https://www.youtube.com/watch?v=9_888bqgnx0

MESA MultiEntitySimulationArchitecture
https://github.com/oggata/MultiEntitySimulationArchitecture https://oggata.github.io/MultiEntitySimulationArchitecture/

Avatar for oggata

oggata

October 01, 2025
Tweet

More Decks by oggata

Other Decks in Programming

Transcript

  1. 1 章 : 仮 想 世 界 か ら 現

    実 世 界 へ 、 シ ミ ュ レ ー タ ー の 現 在 地
  2. ゲームにおけるAIのNPCへの活用ユースケースとして、NPCがフィールドを自由に駆け回り、自由に話をするという世界観は古 くからあったが、GPTの登場によって、その動きは広がっている。 Radiant AIは、ゲーム内のNPC(ノンプレイヤーキャラクター)の行動をより自然で動的なものにする ために開発された人工知能システム。主にThe Elder Scrollsシリーズで使用されており、NPCに独自の 目標や行動パターンを与えることで、よりリアルな世界観を作り出すことを目的としています。 The Elder

    Scrolls IV: Oblivion Xbox 2007年7月26日 Teammatesは、2024年のNeo NPCプロジェクトの進化版として開発された、生成AI駆動の実験的な ゲーム体験です。一人称シューティングゲーム形式で、リアルタイム音声コマンドに反応する高度な AI機能を持つNPCが特徴です。 1-1. AIは古くからゲームのNPCとして活躍してきた 1-1. AIは古くからゲームのNPCとして活躍してきた Packman x モンテカルロ木探索
  3. MLASを用いたSmallville型シミュレーション 1. Smallvilleとは何か:AI社会シミュレーションの革命 2023年、スタンフォード大学とGoogleの研究チームが発表した「Generative Agents: Interactive Simulacra of Human Behavior」は、AI分野における社会シミュレーションの概念を根本的に変革しました。このプロジェ

    クトでは、The Simsにインスパイアされた仮想世界「Smallville」に25のAIエージェントを配置し、人間らし い行動をシミュレートする画期的な実験が行われました。 従来のコンピュータシミュレーションと決定的に異なるのは、エージェントの行動が事前にプログラムされた ルールに従うのではなく、大規模言語モデル(LLM)による自然言語処理によって動的に生成されることで す。これにより、研究者が予想もしなかった複雑で自然な社会的相互作用が創発的に現れるようになりまし た。 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデル リアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持つ初の汎用世界モデル フォトリアリスティックから想像上の世界まで幅広く生成可能 プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられている リリース時期: 2025年8月5日発表(限定研究プレビュー) こうしたNPCの仕組みの利活用は、MLASを用いたSmallville型シミュレーションのように、実際には、エンターテインメントを 超えて、社会行動のシミュレーションとしての用途に広げられている。 1-2. ゲームAIは社会のシミュレーションとしても役立っている 1-2. ゲームAIは社会のシミュレーションとしても役立っている
  4. 開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成 RGB-D(カラー+深度)ビデオ生成フレームワーク 3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能 ネイティブ3D再構成機能を持ち、COLMAPなどの追加ツール不要で3D出力が可能 超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応)

    Stanford WorldScoreベンチマークで1位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写+Unreal Engineの合成データ)で訓練 リリース時期: 2025年9月2日 開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする 自律走行車(AV)とロボット向けに設計 テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成 モデルファミリー: Nano: リアルタイム、低遅延推論とエッジデプロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適 拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) 仮想から現実へ シミュレーションは仮想空間だけにとどまらず、現実世界におけるロボットの制御などにも役立つユースケース が登場している。フィジカルAIと呼ばれるこの分野では、仮想空間で学習したモデルを現実世界のロボットに展開する取り組み が進んでいる。 1-3. シミュレーションからフィジカルAIへ - 仮想から現実へ 1-3. シミュレーションからフィジカルAIへ - 仮想から現実へ
  5. インターネット上の情報を全て 読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト 満4歳になるまでに起きている時間(1.6万時間)と、視覚から得る データ量を基にしています。視神経の数(200万本、1本=1バイ ト)と、その伝送頻度(毎秒10回)から算出された数字 50倍

    4歳児 インターネット上のすべてのデータは、4歳児の経験に満たない インターネット上のテキストデータは膨大だが、実世界の物理 的経験としては限定的である。人間が4歳までに獲得する身体的・空間的理解は、現在のAIが持つデータでは到底カバーできな い。これが、現実世界で動作するAIの大きな課題となっている。 1-6. データの質と量の課題 1-6. データの質と量の課題
  6. 2 章 : M E S A を 活 用

    し て 、 シ ミ ュ レ ー シ ョ ン を 実 践 し て み る
  7. 1 . 名 前 ( 日 本 語 の 一

    般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 ) 各エージェントに固有の性格、価値観、知識、経験を設定する。例えば「45歳の物流施設マネージャー、効率重視、20年の現場 経験」といった具体的なペルソナを定義することで、そのエージェントの意思決定や行動パターンに一貫性を持たせる。 2-2. ペルソナの作成 - 個性と背景の定義 2-2. ペルソナの作成 - 個性と背景の定義
  8. 大目標 中目標 小目標 施設全体の効率的な運営 「次の荷物を取りに行く」 「障害物を避ける」 午前中に50個の荷物を指定エリアに配置 1 . 名

    前 ( 日 本 語 の 一 般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 ) LLMは大目標から中目標への分解、状況に応じた優先順位付けを担当し、小目標の実行は専門的なモジュールが担う。 2-3. 目標から行動を作成する - 階層的タスク分解 2-3. 目標から行動を作成する - 階層的タスク分解
  9. LLMは言語に特化したモデル (資料) LLM (資料) LLM 【 Large Language Models (LLM)

    】 │ ├── プ ロ プ ラ イ エ タ リ ( 企 業 提 供 ) │ ├── GPT-4 / GPT-4 Turbo (OpenAI, 2023) │ ├── GPT-4o / GPT-4o mini (OpenAI, 2024) │ ├── o1 / o1-mini / o1-pro (OpenAI, 2024/2025) ← 推 論 特 化 │ ├── Claude 3 Opus / Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 3.5 Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2025) │ ├── Gemini 1.5 Pro / Flash (Google, 2024) │ ├── Gemini 2.0 Flash (Google, 2024) │ ├── Gemini 2.5 Pro (Google, 2025) │ └── Grok 2 / Grok 3 (xAI) │ ├── オ ー プ ン ソ ー ス - 大 規 模 (70B 以 上 ) │ ├── LLaMA 3 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.1 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.3 (70B) (Meta, 2024) │ ├── Qwen2.5 (0.5B 〜 72B) (Alibaba, 2024) │ ├── Qwen3 (Alibaba, 2025) │ ├── DeepSeek-V2 / V3 (DeepSeek, 2024/2025) │ ├── Mistral Large (Mistral AI) │ └── Yi-Large (01.AI) │ ├── オ ー プ ン ソ ー ス - 中 規 模 (7B 〜 70B) │ ├── Mistral 7B / 8x7B / 8x22B (Mistral AI) │ ├── Mixtral 8x7B / 8x22B (Mistral AI) ←MoE │ ├── Command R / R+ (Cohere) │ ├── Gemma 2 (9B, 27B) (Google) │ ├── Gemma 3 (4B, 27B) (Google, 2025) │ └── Nemotron (NVIDIA) │ ├── オ ー プ ン ソ ー ス - 小 規 模 (7B 以 下 ) │ ├── Phi-3 / Phi-3.5 / Phi-4 (Microsoft) │ ├── Gemma (2B, 7B) (Google) │ ├── SmolLM (135M, 360M, 1.7B) (Hugging Face) │ ├── Qwen2.5 (0.5B, 1.5B, 3B, 7B) (Alibaba) │ └── OpenELM (Apple) │ ├── 推 論 特 化 LLM │ ├── o1 / o1-mini / o1-pro (OpenAI) │ ├── QwQ-32B-Preview (Qwen) │ ├── DeepSeek-R1 (DeepSeek, 2025) │ └── Gemini 2.0 Flash Thinking (Google, 2025) │ ├── 日 本 語 特 化 LLM │ ├── Sarashina (Stability AI Japan) │ ├── PLaMo (Preferred Networks) │ ├── Japanese StableLM (Stability AI) │ ├── Swallow ( 東 京 工 業 大 学 ) │ ├── KARAKURI LM ( カ ラ ク リ ) │ └── Llama 3 Swallow ( 東 京 工 業 大 学 ) │ └── 長 文 脈 特 化 ├── Claude 3/3.5/4 (200K tokens) (Anthropic) ├── Gemini 1.5 Pro ( 最 大 2M tokens) (Google) ├── GPT-4 Turbo (128K tokens) (OpenAI) └── Command R+ (128K tokens) (Cohere)
  10. L L M は 「 意 図 」 と 「

    サ ブ ゴ ー ル 」 の み 生 成 " キ ッ チ ン に 行 って 食 材 を 取 って く る " → [ " キ ッ チ ン に 移 動 ", " 冷 蔵 庫 に 近 づ く " , " 食 材 を 取 る " ] R o u t e k n o w l e d g e ( 手 続 き 的 知 識 ) M i d - L e v e l で 幾 何 学 的 計 画 従 来 の 経 路 プ ラ ン ニ ン グ ア ル ゴ リ ズ ム ( A* , D i j k s t r a , R R T ) 地 図 デ ー タ を 使 っ た 最 適 経 路 計 算 S u r v e y k n o w l e d g e ( 地 図 的 知 識 ) L o w - L e v e l で 視 覚 ベ ース 制 御 D I N O v 2 や C L I P な ど の 視 覚 特 徴 抽 出 リ ア ル タ イ ム な 障 害 物 認 識 局 所 的 な 軌 道 修 正 L a n d m a r k k n o w l e d g e ( 視 覚 ラ ン ド マ ー ク ) この階層構造により、柔軟な判断と確実な実行を両立させる。 2-5. 階層的ナビゲーション(Hierarchical Navigation)- 戦略と戦術の分離 2-5. 階層的ナビゲーション(Hierarchical Navigation)- 戦略と戦術の分離
  11. H i g h - L e v e l

    P l a n n e r ← L l a m a ( 軽 量 ) ( L l a m a - 3 . 2 - 1 B ) M i d - L e v e l N a v i g a t o r ← A* ア ル ゴ リ ズ ム ( A* P a t h f i n d i n g ) V i s i o n S y s t e m ← D I N O v 2 ( D I N O v 2 F e a t u r e E x t r a c t o r ) L o w - L e v e l C o n t r o l l e r ← L l a m a + V i s i o n ( L l a m a - 3 . 2 - 1 B + D I N O v 2 ) この階層構造により、柔軟な判断と確実な実行を両立させる。 2-5. 階層的ナビゲーション(Hierarchical Navigation)- 戦略と戦術の分離 2-5. 階層的ナビゲーション(Hierarchical Navigation)- 戦略と戦術の分離
  12. ├── 【 ビ ジ ョ ン モ デ ル 】

    │ │ │ ├── Vision Transformer (ViT) 系 │ │ ├── オ リ ジ ナ ル ViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer ( 階 層 的 ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT ( エ ッ ジ デ バ イ ス 用 ) │ │ │ ├── CNN ベ ー ス モ デ ル ( 参 考 : ViT 以 前 の 主 流 ) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハ イ ブ リ ッ ド モ デ ル ( CNN + Transformer ) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 画 像 エ ン コ ー ダ ー ( VLM の 構 成 要 素 ) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP Vit (資料)ViT (資料)ViT
  13. 2-6. Vision Modelの説明 - セグメンテーションによる環境理解 2-6. Vision Modelの説明 - セグメンテーションによる環境理解

    自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション(画像から物体をきりわける)を行った例。 画像から「床」 「壁」 「荷物」 「人」などの領域を識別するセグメンテーションモデルを使用。DINOv2やSAM(Segment Anything Model)などの自己教師あり学習ベースのモデルは、少ないラベル付きデータでも高精度な領域分割が可能。これによ り、ロボットは「通行可能な領域」 「注意すべき物体」を識別できる。
  14. Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision

    2-7. VLM(Vision-Language Model)の活用 - 視覚と言語の統合理解 2-7. VLM(Vision-Language Model)の活用 - 視覚と言語の統合理解 GPT-4VやLLaVAなどのVLMは、画像を見て「これは何か」 「どうすべきか」を言語で説明できる。例えば、カメラ画像を見て 「通路に荷物が落ちているので、拾って脇に寄せるべき」といった状況判断と行動提案を行う。人間との自然な対話インターフ ェースとしても機能する。
  15. │ ├── 動 画 理 解 モ デ ル │

    │ ├── VideoMAE ( 動 画 版 MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ ├── ワ ー ル ド モ デ ル ( 理 解 + 予 測 + プ ラ ン ニ ン グ ) │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ (資料) WorldModel (資料) WorldModel WorldModels
  16. 2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する 2-8. V-JEPA2のような物理予測モデル - 未来の状態を予測する V-JEPA(Video Joint-Embedding

    Predictive Architecture)は、現在の状態から数秒後の世界の状態を予測する。例えば「この まま進むと荷物にぶつかる」 「人が横切りそう」といった予測を行い、事前に回避行動を取ることができる。物理シミュレーシ ョンを内包したワールドモデルとして機能する。
  17. Sim-to-Real転移 仮想空間だけではなく現実空間の行動データを取り込むためのエンコーダーが必要。実世界のセンサーデータ (カメラ画像、LiDAR点群、IMUデータなど)を、シミュレーションで学習したモデルが理解できる形式に変換する。ドメイン 適応技術により、仮想と現実のギャップを埋める。 2-11. 現実世界の行動データを取り込むエンコーダー - Sim-to-Real転移 2-11. 現実世界の行動データを取り込むエンコーダー

    - Sim-to-Real転移 ポーズエンコーダ(Pose Encoders)** - OpenPose、MediaPipe、AlphaPose - 人体の関節位置を検出し、スケルトン表現に変換 - 2D/3D座標系列として時系列データを生成 - 職人の手の動き、身体の姿勢を数値化 時空間エンコーダ(Spatiotemporal Encoders)** - 3D CNN(C3D、I3D) - Video Transformer(TimeSformer、VideoMAE) - 動画フレーム全体から動作パターンを抽出 - 時間的な変化と空間的な特徴を同時に捉える 軌跡エンコーダ(Trajectory Encoders)** - RNN/LSTM/GRU系 - Temporal Convolutional Networks(TCN) - 工具の移動経路、手の軌跡などの連続的な動きを エンコード - 職人技の「リズム」や「タイミング」を学習 視覚: カメラ映像からのポーズ推定 触覚: 力覚センサーからの圧力データ 音: 作業音(例:木材を削る音) IMU: 加速度・角速度センサー
  18. 報酬設計の課題解決 強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少 ない(Sparse Reward問題) 。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な 表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 -

    報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 There is no line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。 バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。
  19. if new_cell_explored: reward += 0.1 # 新しい場所に行っ たら褒める if moved_efficiently:

    reward += 0.05 # 効率的に動いたら 褒める if hit_wall: reward -= 0.1 # 壁にぶつかったら怒 る if 全部探索した: reward = 10 else: reward = 0 Sparse Reward スパースな報酬(疎な 報酬関数) Shaped Reward シェイプトな報酬 (成形された報酬関数) 報酬設計の課題解決 強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少 ない(Sparse Reward問題) 。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な 表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決
  20. ロボット: 「何すればいいの?」 環境: 「100%探索して」 ロボット: 「どうやって?」 環境: 「...」 (報酬0) ロボットの行動:

    Forward → Turn Left → Forward → Turn Right → ... (完全にランダム) 結果: Coverage: 10-40%くらいで時間切れ Reward: 0 学習: なし(まだ成功したことがない) Episode 538: ロボット: いつも通りランダムに動く ... Step 450: たまたま100%探索達成! → Reward: +10 !!! ロボット: 「!!!この行動パターンが正解か!」 Neural Network: この450ステップの行動を記憶 Episode 539: ロボット: 「前回の成功パターンを真似しよう」 → でも完全には再現できない → Reward: 0 Episode 545: ロボット: 「また試す」 → 偶然また成功! → Reward: +10 Neural Network: 「あ、完全に同じじゃなくても成功できるんだ」 「共通パターンを見つけよう」 徐々に成功率が上がる: 0% → 5% → 15% → 30% ロボット: 「わかった!系統的に動けばいいんだ」 発見した戦略(例): 1. 部屋を左から右にスキャン 2. 端に着いたら下に移動 3. 右から左にスキャン 4. これを繰り返す ┌─────────┐ │→→→→↓ │ │←←←←↓ │ │→→→→↓ │ │←←←←◦ │ └─────────┘ 成功率: 50-70% 報酬設計の課題解決 強化学習では「どの行動が良かったか」を示す報酬が必要だが、実世界では明確な報酬が得られる機会は少 ない(Sparse Reward問題) 。自己教師あり学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な 表現を獲得できる。例えば、同じ物体を異なる角度から見た画像の特徴量を近づけるといった手法。 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決 2-10. Sparse Reward問題と自己教師あり学習 - 報酬設計の課題解決
  21. 3 章 : ワ ー ル ド モ デ ル

    - A I が 世 界 を 理 解 し 予 測 す る 仕 組 み
  22. - **古典的アプローチ**: 物理エンジン(Unity、Unreal Engine)による明示的なシミュレーション - **モデルベース強化学習**: Dyna、PILCO などの初期的なワールドモデル - **深層学習時代**:

    World Models(2018) 、Dreamer シリーズ - **基盤モデル時代**: Genie、Sora、NVIDIA Cosmos など大規模ワールドモデル 3-3. ワールドモデルの歴史 - 古典的アプローチからニューラルネットワークへ 3-3. ワールドモデルの歴史 - 古典的アプローチからニューラルネットワークへ
  23. - **予測精度**: 未来のフレームをどれだけ正確に予測できるか - **長期予測の安定性**: 何ステップ先まで破綻せずに予測できるか - **因果関係の理解**: 介入(行動)に対する反応を正しく予測できるか -

    **サンプル効率**: どれだけ少ないデータで学習できるか - **計算効率**: リアルタイム性、推論速度 - **汎化性能**: 学習時に見ていない状況にも対応できるか 3-12. ワールドモデルの評価指標 - 何をもって良いモデルとするか 3-12. ワールドモデルの評価指標 - 何をもって良いモデルとするか
  24. - **長期予測の難しさ**: 時間が経つほど誤差が累積し、予測が不安定になる - **高次元空間の呪い**: ピクセル空間での予測は計算コストが膨大 - **確率的事象の扱い**: 不確実性をどう表現するか(確定的 vs

    確率的モデル) - **Out-of-Distribution問題**: 学習データにない状況での予測精度低下 - **因果関係の抽出**: 相関関係ではなく、真の因果を学習する難しさ 3-13. ワールドモデルの課題 - 複雑な現実世界への適応 3-13. ワールドモデルの課題 - 複雑な現実世界への適応
  25. - **統一ワールドモデル**: あらゆる物理現象を一つのモデルで扱う(水、火、布、固体など) - **階層的ワールドモデル**: 抽象度の異なる複数のモデルの統合(分子レベル〜都市レベル) - **対話的学習**: 人間との対話を通じて世界知識を獲得・修正 -

    **生涯学習**: 継続的に新しい概念や法則を学び続けるシステム - **説明可能性**: なぜそう予測したのかを人間に説明できるモデル MESAのような人間行動シミュレーションも、究極的には高度なワールドモデルの上に構築される。物理世界と社会世界を統合 的に理解するAIの実現が目標。 3-14. ワールドモデルの未来 - 次の10年で目指すもの 3-14. ワールドモデルの未来 - 次の10年で目指すもの