Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cosmos World Foundation Model Platform for Phys...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

Cosmos World Foundation Model Platform for Physical AI

2026/02/08 第66回コンピュータビジョン勉強会@関東「世界モデル論文読み会」発表資料
https://kantocv.connpass.com/event/380620/

Avatar for Takuya MINAGAWA

Takuya MINAGAWA

February 07, 2026
Tweet

More Decks by Takuya MINAGAWA

Other Decks in Technology

Transcript

  1. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード

    技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp お仕事の依頼はこちらから→
  2. 紹介する論文 5  Cosmos World Foundation Model Platform for Physical

    AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能 共著者:77人, 75ページ
  3. 紹介する論文 6  Cosmos World Foundation Model Platform for Physical

    AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能  Web site  https://www.nvidia.com/en-us/ai/cosmos/  コード  https://github.com/nvidia-cosmos
  4. Cosmos World Foundation Model 7  物理AI(Physical AI)の大きな課題はデータを集めるのが 大変なこと。 

    特にアクションで現実世界に影響をあたえてデータ取るのは ハードルが高い  物理AIが安全に相互作用できる「デジタルツイン」となる 世界基盤モデル(World Foundation Model)によって データの問題を解決!
  5. Cosmosの構成 12  Pre-trained World Foundation Models(事前学習された 世界基盤モデル)  拡散世界モデル(Diffusion-based

    World Foundation Model)  Diffusion Transformer (DiT)を元に事前学習した世界基盤モデル  自己回帰世界モデル(Autoregressive-based World Foundation Model)  自己回帰モデルを元に事前学習した世界基盤モデル
  6. Data Curation 16  Filtering  品質の悪い動画の除去  Fine-tuning用の高画質動画の選択 

    動画のカテゴリ分布の調整  自動運転や手元の操作、自然のダイナミクス等
  7. Tokenizer 23  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化 

    これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 最初のフレーム𝑥0 を独立して扱い、以後4フレームずつグループ化して、3D Haarウェー ブレット変換
  8. Tokenizer 24  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化 

    これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 時間軸方向に畳み込む際、カーネルサイズkに対しk-1の左パディングを適用し、未来の フレームが参照されないようにする
  9. Tokenizer 25  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化 

    これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 現在のステップが過去のステップのみ参考にするようにSelf-Attentionを行う
  10. Tokenizer 26  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化 

    これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v Decoderで、Encoderと対称な処理で元の動画を復元
  11. Diffusion-based World Foundation Model 28 2種類の世界基盤モデル(World Foundation Model)  拡散世界基盤モデル(Diffusion

    WFM)  Diffusion Transformer (DiT)をベースとしたアーキテクチャ  ガウシアンノイズから徐々にノイズを除去して動画を生成  連続トークン(Continuous Token)を使用  自己回帰世界基盤モデル(Autoregressive WFM)  テキスト生成LLMのように、離散トークンを用いて、過去のトー クンからその次のトークンを順次予測・生成
  12. Diffusion-based World Foundation Model 29 拡散世界基盤モデルのトレーニング 1. Text2Worldを学習  プロンプトから動画を生成するよう学習

    2. Video2Worldを学習  Text2Worldを、プロンプトと過去のフレームから未来のフレー ムを予測するようFine-tuning  過去のフレームと生成されるフレームを時間軸で結合(Concatenate)  損失計算から過去のフレームは除外  過去のフレーム数はランダムに変更
  13. Diffusion-based World Foundation Model 30  拡散世界基盤モデルの事前学習 連続トークンに ノイズ付与 ノイズ除去され

    たトークン ノイズ除去 H,W,TのPE 学習可能 なPE W,H,Tでさ らに分割 プロンプト による制御 入力動画 復元動画
  14. Autoregression-based World Foundation Model 33 トレーニング 1. 最初のフレームから、続きの動画を生成するよう学習  17フレーム予測→34フレーム予測と2段階で学習

    2. プロンプトによる条件付け  Cross Attentionを用いてプロンプト+画像から、続きの動画を 生成するようにFine-tuning  過去のフレーム数はランダムに変更
  15. Autoregression-based World Foundation Model 34  自己回帰世界基盤モデルの事前学習 入力動画 続きの動画 H,W,TのPE

    学習可能 なPE 離散トークン 因果的 Attention プロンプト による制御 float vectorへ 変換(学習可)
  16. Post-trained World Foundation Model 47  Cosmos WFMをfine-tuningして、以下のアプリケーション に適用 

    カメラ制御による3D世界ナビゲーション  ロボットの操作  自動運転 カメラ ロボット 自動運転
  17. Post-training: カメラ制御 49  目的:  1枚の入力画像とカメラの軌跡から、動画を生成  学習データ 

    DL3DV-10Kデータセット  静的なシーンに対する動画データセット  動画を256フレームずつ分割し、それぞれに対しGLOMAPでカ メラの位置/姿勢を計算  Fine-tuning  各トークンの潜在ピクセルに、位置+視線方向の6次元を割り 当て(Plucker embeddings)  トークンのチャネル方向に埋め込み
  18. Post-training: ロボット操作1 55  目的:  1枚の入力画像とロボットへの指示文から、続きの動画を生成する  学習データ 

    Cosmos-1Xデータセット  1X Technologies社のヒューマノイドロボット「EVE」が捉えた約200時間の 一人称視点ビデオから抽出された約12,000のエピソード  各エピソードには指示文が1つついている  Fine-tuning  Cosmos-1Xデータセットの動画+指示文を用いてFine-tuning  Cosmos-Predict1-7B-Video2World-Sample-Instruction (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-Instruction (自己回帰型)
  19. Post-training: ロボット操作2 58  目的:  1枚のロボットから見た視覚画像とアクションベクトルから、次のフ レームを生成する  学習データ

     Bridgeデータセット  台所で作業するロボットアームを三人称視点で撮影した20,000エピソー ドの動画  各フレームにアクションがついている。アクションはグリッパーの座標変 化を含む7次元ベクトル  Fine-tuning  データセットの動画を入力都市、アクションをプロンプト化(自己回帰 型)、またはtime stepに埋め込んで学習  Cosmos-Predict1-7B-Video2World-Sample-ActionCond (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-ActionCond (自己回帰型)
  20. Post-training: 自動運転 63  目的:  自動運転用に、車両に異なる方向を向いて取り付けられた、 複数のカメラの映像を生成する。  学習データ

     Real Driving Scene (RDS)データセット  約360万個の20秒ビデオクリップ(合計約20,000時間分)。  構成: 6つのカメラ視点(前方、左、右、後方、左後方、右後方)と、自 車の動き(ego-motion)情報  車両密度、天候(雨、雪、霧など)、時間帯(昼夜)、道路の種類(田 舎道、市街地、高速道路)などが網羅
  21. Post-training: 自動運転 64  Fine-tuning  Cosmos-Predict1-7B-Text2World-Sample-MultiView  テキストプロンプトから6つの視点の映像を同時に生成 

    Cosmos-Predict1-7B-Text2World-Sample-MultiView- TrajectoryCond  テキストに加え、「将来の走行軌道(3D空間上の64個の座標点列)」 を条件として入力し、その経路に沿った映像を生成  Cosmos-Predict1-7B-Video2World-Sample-MultiView  過去のフレームを条件とし、既存の映像を延長して生成
  22. 66

  23. 67

  24. Guardrail 68 世界基盤モデルを安全に使用するために、有害な入出力を遮 断する包括的な安全性システム  pre-Guard(入力段階の防御)  キーワード・ブロッキング: 不適切な単語が含まれていたら拒絶 

    Aegis(イージス)ガードレール: LLMで暴力、性的内容、犯罪計画、 薬物乱用、嫌がらせなどの有害プロンプトを検知してブロック  post-Guard(出力段階の防御)  ビデオ・コンテンツ安全性フィルター: 各フレームをSigLIPというモデ ルでベクトル化し、分類器(MLP)によって有害な内容が含まれてい ないかを判定  顔ぼかしフィルター: プライバシー保護のため、顔検出モデル (RetinaFace)を使用して映像内の顔を特定し、モザイク処理
  25. まとめ 69  汎用的に使用可能な世界モデル基盤、Cosmos World Foundation Modelsを提案  Fine-tuningによって、3Dナビゲーション、ロボット、自動 運転などに応用可能

     拡散WFMと自己回帰WFMの2つの方式を提案  拡散WFMは、高品質な生成によって、高精細なシミュレーショ ンや、複雑なシーン生成向き  自己回帰WFMはリアルタイム処理に向いており、ロボットの 計画策定や対話的な制御向き
  26. 個人的な感想 70  ただ動画生成を学習しただけなのに世界モデルが物理法則 を理解している、と言われるともやもやする。  人間も視覚から世界の理解を深めているし、動きの予測の時運動 方程式を意識しているわけではないので、動画生成が世界モデル で重要というのはわかる。 

    人間が物体の動きを予測できるのは、心の中で空間的な配置など を理解しているためだと思うが、Cosmosの潜在表現はただの動画 エンコードとしか思えない。  著者自身も時に正確な物理的ふるまいが動画に反映されていない ことを認めている。  動画生成に留まらず、論文”World Models”のように潜在空間 上で強化学習をして行動最適化できるところまで見たかった。  世界モデルが重要な理由は、そこにあると思っている  その場合、そこまで精緻な動画生成に意味はあるのか?