[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)

紹介する論⽂： Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World
Models Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox (University of Freiburg, Germany) Michiya Abe @abemii_ Feb. 8, 2026. コンピュータビジョン勉強会@関東 World Model 読み会 ※資料中の図表等は特に記載のない限り上記論⽂から引⽤ ※ 発表内容は発表者の所属機関と⼀切関係しません

3 ⾃動運転システム https://www.nuscenes.org/nuscenes ⼊⼒⾞載センサの⼊⼒‧地図情報を（いい感じに）処理して，⾃⾞の経路計画‧制御を⾏う RGB カメラ画像⾼精度地図 (HD Map)
LiDAR 点群さまざまなセンサ出⼒経路計画将来の⾃⾞の状態（位置‧姿勢‧速度など）の系列今アクセル‧ブレーキステアリング制御加速度や舵⾓などを指令して⾞を動かす 1 秒後 2 秒後 3 秒後

4 End-to-End ⾃動運転モデル単⼀のニューラルネットワークでセンサ⼊⼒から⼀気に将来の経路や制御値を出⼒ニューラルネットワーク https://www.nuscenes.org/nuscenes RGB カメラ画像⾼精度地図
(HD Map) LiDAR 点群さまざまなセンサ経路計画将来の⾃⾞の状態（位置‧姿勢‧速度など）の系列今アクセル‧ブレーキステアリング制御加速度や舵⾓などを指令して⾞を動かす 1 秒後 2 秒後 3 秒後

5 安全かつスムーズに⾛⾏するためには先の状況を予測しながら運転する必要がある • ⼈間のドライバーは、経験的に「この先で歩⾏者が出てくるかも？」「前の⾞が急ブレーキを踏むかも？」と未来を想像しながら運転している • AI
⾃動運転システムも、同じように周囲の状況変化をシミュレートする能⼒が必要運転と予測かもしれない運転をしましょう - 群馬県警より引用世界モデル

6 AIが環境の内部モデル（仮想世界）を作り出し、その中で将来をシミュレーションできる仕組み • 過去の観測（カメラ映像など）から、これから起こりうる状況を予測し、次の時刻の映像を作り出す世界モデル ※ Nano Banana
に作らせた図

7 従来⼿法 (GEM, Vista, Cosmos) では、特に曲がり⾓のシナリオで⻑期予測が破綻してしまう • 動きがおかしくなったり、⽌まってしまったり、モヤモヤになったり⻑期予測や複雑なシーンの⽣成は難しい
Orbis プロジェクトページより引用　

8 ⾃動運転世界モデルの⻑期予測を安定化 • カーブや交通量の多い都市部といった困難なシナリオでも破綻しにくい • 動画⽣成の品質だけでなく，⽣成された軌道の評価⽅法も提案シンプルでコンパクト • ⼊⼒はフロントカメラの動画のみ（追加のセンサや教師情報は使わない） •
学習データは 280 時間分程度の運転動画、モデルサイズは 0.47 B パラメータ連続モデル vs 離散モデル • フローマッチングベースの連続モデルと離散トークンモデルのどちらが良いか NeurIPS 2025 に採択

9 Orbis 全体像図は Orbis: Overcoming Challenges of Long-Horizon Prediction
in Driving World Models (著者スライド) から引用画像トークナイザ世界モデル • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現：連続ベクトルとしても離散トークンとしても使えるようにする • ⼀旦学習したら固定し、以降は各フレームの画像をトークン化して扱う • 潜在表現列から次のフレームの潜在表現を予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を使えるようにしている • ⾃⼰回帰的（過去の数フレーム分の潜在から未来のフレーム潜在を順次⽣成する）に動作し、⻑いシーケンスを繰り返し予測できる

in Driving World Models (著者スライド) から引用画像トークナイザ • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現：連続ベクトルとしても離散トークンとしても使えるようにする • ⼀旦学習したら固定し、以降は各フレームの画像をトークン化して扱う世界モデル • 潜在表現列から次のフレームの潜在表現を予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を使えるようにしている • ⾃⼰回帰的（過去の数フレーム分の潜在から未来のフレーム潜在を順次⽣成する）に動作し、⻑いシーケンスを繰り返し予測できる

11 動画⽣成モデルの⽅式 • 離散：画像を細かな離散コードに量⼦化して予測する⽅法（例: VQ-VAE＋トークン予測） • 連続：⽣のピクセルや連続的な潜在ベクトルを直接予測する⽅法（例: 拡散モデル）
学習時の⼯夫 • 量⼦化（離散化）をランダムにバイパスすることで、⼀つのモデルで両⽅に対応できるようにした画像トークナイザ ~ ハイブリッドトークン表現 ~ 図は Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (著者スライド) から引用連続ベクトルと離散トークンを両⽅扱えるハイブリッドトークン表現

12 Semantic (意味) トークンと Detail (詳細) トークン • Semantic: 画像中のオブジェクトやレイアウトなど⾼レベルな情報を捉える
◦ DINOv2 から蒸留している． • Detail: テクスチャや細かなディテールを保持する画像トークナイザ ~ ⼆種類の潜在表現 ~ ⼆つを組み合わせて画像を再現することで、意味構造と細部の両⽅をうまく表現できるようにしている

in Driving World Models (著者スライド) から引用世界モデル • 潜在表現列から次のフレームの潜在表現を予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を使えるようにしている • ⾃⼰回帰的（過去の数フレーム分の潜在から未来のフレーム潜在を順次⽣成する）に動作し、⻑いシーケンスを繰り返し予測できる画像トークナイザ • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現：連続ベクトルとしても離散トークンとしても使えるようにする • ⼀旦学習したら固定し、以降は各フレームの画像をトークン化して扱う

15 世界モデル画像トークナイザから得られた潜在表現列から次のフレームの潜在表現を逐次的に予測していく

16 世界モデル ~ ⼆種類の⼿法 ~ 離散 (MaskGIT) 連続 (Flow Matching)
• 拡散モデルに似た逐次的ノイズ除去プロセスを学習するフレームワーク • ランダムノイズからターゲットの次フレーム潜在表現を⽣成する時間発展関数（フロー）を学習する • 各時刻の潜在コード（離散トークン列）に対し、マスク付きトークン予測を⾏う • 次フレームの潜在トークンをマスクした状態からスタートし、徐々にマスクを実際のコードに置き換えていく公平な⽐較 • 連続‧離散のいずれもモデルも、同⼀のトークナイザを使⽤し、世界モデル側もほぼ同等の Transformer アーキテクチャを採⽤ • 違いは、損失関数（Flow Matching vs マスク予測）や⽣成プロセス（ノイズ除去vs unmasking）のみ Lipmap+. Flow Matching Guide and Code (arXiv, 2024) Chang+, MaskGIT: Masked Generative Image Transformer. (CVPR, 2022)

18 • 学習： ◦ BDD100K と OpenDV から抽出した 280 時間分の動画フレーム（都市部‧昼間‧晴天が
メイン） ◦ トークナイザ学習⽤には追加で、 Honda HAD, Honda HDD, ONCE, nuScenes, nuPlan からも抽出。 • 評価： ◦ 学習に⽤いていないデータで汎化能⼒を評価。 ◦ nuPlan (800 シーケンス) ◦ Waymo Open Dataset (400 シーケンス) ◦ nuPlan-turns (400 シーケンス): 交差点で曲がるシーンだけを集めたセット。モデルがターン動作にどれだけ対応できるか。 ◦ 他のベースライン⼿法には nuPlan を学習に⽤いているものもあるので、評価時は公平性のために nuplan は参考値程度。メインの評価は waymo や選別ターンセットで⾏う。実験 ~ データセット ~

19 • 解像度 ◦ 512 x 288 (⾼解像度モデル) ◦ 256
x 256 (低解像度モデル) ◦ トークナイザにより、空間解像度が x16 まで圧縮される。 • フレーム数 ◦ 潜在モデルには 5 Hz でサンプルされた 5 フレーム分のコンテキストが⼊⼒される • 計算資源 ◦ Ablation ⽤の低解像度モデルの学習は BDD100K のサブセットを⽤いて、 A100 32 枚で 1 ⽇⾏う。 ◦ ⾼解像度モデルの学習は 10 epoch を A100 72 枚で 5 ⽇以上かけて⾏う。実験 ~ 学習設定 ~

20 FVD (Frechet Video Distance) と JEDi • 画像‧映像の外観的なリアリズムや多様性を評価。値が低いほど現実のビデオ分布に近い。
• 提案⼿法 (Orbis) はベースライン⼿法を⼤きく上回っている。 • しかも，学習に要するデータ量も少ない実験 ~ 動画の⽣成品質 ~

21 実験 ~ ⻑期予測 ~ • 離散版のOrbis-MGは短いホライゾンではVistaやGEMと同等の性能を⽰したものの、⻑ホライゾンになるにつれてFVDが悪化しやすく、特にターンのようなシナリオでは連続版 (Orbis) との差が顕著。
• 離散版 Orbis-MGではマスク予測時のヒューリスティック（どのマスクをどの順に埋めるか等）に性能が敏感で、⼀貫した⻑尺⽣成にはチューニングが難しい⾯が⾒られた。 • 連続版 Orbis(-FM) は個々の設計選択に頑強で、安定して⾼品質な予測を続けられた。⻑ホライゾン予測には連続潜在表現アプローチの⽅が有利

22 ⽣成映像から VGGT を⽤いて推定される⾃⾞の軌跡データに着⽬し，現実の軌跡分布と⽐べた適合率‧再現率を測る指標を提案 • 現実にあり得る運転挙動をどれだけ網羅し、逆に、不視線な挙動をどれだけ抑制できているかを⾒る指標． •
適合率が低い：実データに存在しない異様な軌跡を⽣成 • 再現率が低い：実データで⾒られる多様な挙動の⼀部を再現できていない．実験 ~ 軌道の品質 ~ ベースライン⼿法よりも⽣成する軌道が⾃然で網羅性も⾼い

23 ⾮条件（unconditional）のモデル vs 将来軌道で条件づけたモデル • ある程度は指⽰通りの曲がり⽅‧進⾏をさせることができ，軌道の品質も良くなった． • しかし，⾼レベルコマンド（右折‧左折‧直進など）やテキスト⼊⼒などは試されていない．
実験 ~ ⾃⾞のモーションを⼊れてみる ~ 与えられた直近映像から将来の映像を⽣成する（特に制約なし）⾃⾞の将来経路を制御⼊⼒として与える（この軌道を通った映像を作って欲しい）

24 DINO からの蒸留は要るのか？ • GAIA-1 と同じアプローチ． DINO 蒸留により，FVD は下がるが， rFID
(再構成FID) は上がってしまう場合もある．トークン分解は要るのか？ • 要る．また，離散モデル (Orbis-MG) に⽐べ，連続モデル (Orbis) は設計の変更に頑健実験 ~ トークナイザの設計 ~ DINO も効くけど，トークン分解はもっと効く

25 ⾃動運転世界モデルの⻑期予測を安定化 • カーブや交通量の多い都市部といった困難なシナリオでも破綻しにくい • ⽣成品質を映像の品質だけでなく，軌道としても評価シンプルでコンパクト • ⼊⼒はフロントカメラの動画のみ（追加のセンサや教師情報は使わない） •
学習データは 280 時間分程度の運転動画、モデルサイズは 0.5 B パラメータ連続モデル vs 離散モデル → 連続モデルのほうが良い • ハイブリッドトークナイザを導⼊し、フローマッチングベースの連続モデルと離散トークンモデルのどちらが良いか公平に⽐較とはいえ，細かな内容物の⽣成精度には課題がある • 信号機や標識の表⽰など • 歩⾏者や他⾞両の動きにも時折不規則な挙動が⾒られる • ⽣成された⾞両が必ずしも交通ルール（信号や⾞線）を守っていない場合がある • 追加の環境知識（地図‧信号状態の⼊⼒など）を与えておらず、データセットが昼間晴天で構成されていて、夜間‧荒天の状況を網羅していない．まとめと課題

26 • [MaskGIT] Huiwen Chang, Han Zhang, Lu Jiang, Ce
Liu, William T. Freeman. MaskGIT: Masked Generative Image Transformer. In CVPR, 2022. • [Flow Matching] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le.Flow matching for generative modeling.arXiv preprint arXiv:2210.02747, 2022. • [GEM] Mariam Hassan, Sebastian Stapf, Ahmad Rahimi, Pedro Rezende, Yasaman Haghighi, David Brüggemann, Isinsu Katircioglu, Lin Zhang, Xiaoran Chen, Suman Saha, et al. Gem: A generalizable ego-vision multimodal world model for fine-grained ego-motion, object dynamics, and scene composition control. In CVPR, 2025. • [Vista] Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, and Hongyang Li. Vista: A generalizable driving world model with high fidelity and versatile controllability. In Advances in Neural Information Processing Systems (NeurIPS), 2024. • [Cosmos] Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, et al. Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575, 2025. • [DrivingWorld] Xiaotao Hu, Wei Yin, Mingkai Jia, Junyuan Deng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, and Ping Tan.Drivingworld: Constructingworld model for autonomous driving via video gpt.arXiv preprint arXiv:2412.19505, 2024. • [GAIA-1] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado.Gaia-1: A generative world model for autonomous driving.arXiv preprint arXiv:2309.17080, 2023. • arXiv preprint: https://arxiv.org/pdf/2507.13162v1 • 著者の発表スライド：https://neurips.cc/media/neurips-2025/Slides/118316.pdf • プロジェクトページ： https://lmb-freiburg.github.io/orbis.github.io/ • code: https://github.com/lmb-freiburg/orbis 参考⽂献

27 スライド： https://neurips.cc/media/neurips-2025/Slides/118316.pdf プロジェクトページ： https://lmb-freiburg.github.io/orbis.github.io/ arXiv preprint: https://arxiv.org/pdf/2507.13162v1 code: https://github.com/lmb-freiburg/orbis

[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Ch...

[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)

abemii_

More Decks by abemii_

Other Decks in Technology

Featured

Transcript

紹介する論⽂： Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World

3 ⾃動運転システム https://www.nuscenes.org/nuscenes ⼊⼒⾞載センサの⼊⼒‧地図情報を（いい感じに）処理して，⾃⾞の経路計画‧制御を⾏う RGB カメラ画像⾼精度地図 (HD Map)

4 End-to-End ⾃動運転モデル単⼀のニューラルネットワークでセンサ⼊⼒から⼀気に将来の経路や制御値を出⼒ニューラルネットワーク https://www.nuscenes.org/nuscenes RGB カメラ画像⾼精度地図

7 従来⼿法 (GEM, Vista, Cosmos) では、特に曲がり⾓のシナリオで⻑期予測が破綻してしまう • 動きがおかしくなったり、⽌まってしまったり、モヤモヤになったり⻑期予測や複雑なシーンの⽣成は難しい

9 Orbis 全体像図は Orbis: Overcoming Challenges of Long-Horizon Prediction

10 Orbis 全体像図は Orbis: Overcoming Challenges of Long-Horizon Prediction

11 動画⽣成モデルの⽅式 • 離散：画像を細かな離散コードに量⼦化して予測する⽅法（例: VQ-VAE＋トークン予測） • 連続：⽣のピクセルや連続的な潜在ベクトルを直接予測する⽅法（例: 拡散モデル）

12 Semantic (意味) トークンと Detail (詳細) トークン • Semantic: 画像中のオブジェクトやレイアウトなど⾼レベルな情報を捉える

14 Orbis 全体像図は Orbis: Overcoming Challenges of Long-Horizon Prediction

15 世界モデル画像トークナイザから得られた潜在表現列から次のフレームの潜在表現を逐次的に予測していく

16 世界モデル ~ ⼆種類の⼿法 ~ 離散 (MaskGIT) 連続 (Flow Matching)

18 • 学習： ◦ BDD100K と OpenDV から抽出した 280 時間分の動画フレーム（都市部‧昼間‧晴天が

19 • 解像度 ◦ 512 x 288 (⾼解像度モデル) ◦ 256

20 FVD (Frechet Video Distance) と JEDi • 画像‧映像の外観的なリアリズムや多様性を評価。値が低いほど現実のビデオ分布に近い。

21 実験 ~ ⻑期予測 ~ • 離散版のOrbis-MGは短いホライゾンではVistaやGEMと同等の性能を⽰したものの、⻑ホライゾンになるにつれてFVDが悪化しやすく、特にターンのようなシナリオでは連続版 (Orbis) との差が顕著。

24 DINO からの蒸留は要るのか？ • GAIA-1 と同じアプローチ． DINO 蒸留により，FVD は下がるが， rFID

26 • [MaskGIT] Huiwen Chang, Han Zhang, Lu Jiang, Ce

27 スライド： https://neurips.cc/media/neurips-2025/Slides/118316.pdf プロジェクトページ： https://lmb-freiburg.github.io/orbis.github.io/ arXiv preprint: https://arxiv.org/pdf/2507.13162v1 code: https://github.com/lmb-freiburg/orbis