Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Ch...

Avatar for abemii_ abemii_
February 07, 2026

[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)

2026/2/8 に開催された CV勉強会@関東 World Model 読み会の資料です。

紹介する論文:
Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox. Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models. NeurIPS, 2025.

著者によるスライド:
https://neurips.cc/media/neurips-2025/Slides/118316.pdf

プロジェクトページ:
https://lmb-freiburg.github.io/orbis.github.io/

arXiv preprint:
https://arxiv.org/pdf/2507.13162v1

code:
https://github.com/lmb-freiburg/orbis

個人的には world model はあまり詳しくないのですが,入力が画像のみ,学習も自己教師学習というとてもシンプルな構成なのが気に入りました.評価方法もおもしろいです.

Avatar for abemii_

abemii_

February 07, 2026
Tweet

More Decks by abemii_

Other Decks in Technology

Transcript

  1. 紹介する論⽂: Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World

    Models Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox (University of Freiburg, Germany) Michiya Abe @abemii_ Feb. 8, 2026. コンピュータビジョン勉強会@関東 World Model 読み会 ※資料中の図表等は特に記載のない限り上記論⽂から引⽤ ※ 発表内容は発表者の所属機関と⼀切関係しません
  2. 3 ⾃動運転システム https://www.nuscenes.org/nuscenes ⼊⼒ ⾞載センサの⼊⼒‧地図情報を(いい感じに)処理して,⾃⾞の経路計画‧制御を⾏う RGB カメラ画像 ⾼精度地図 (HD Map)

    LiDAR 点群 さまざまなセンサ 出⼒ 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 今 アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす 1 秒後 2 秒後 3 秒後
  3. 4 End-to-End ⾃動運転モデル 単⼀のニューラルネットワークでセンサ⼊⼒から⼀気に将来の経路や制御値を出⼒ ニューラル ネットワーク https://www.nuscenes.org/nuscenes RGB カメラ画像 ⾼精度地図

    (HD Map) LiDAR 点群 さまざまなセンサ 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 今 アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす 1 秒後 2 秒後 3 秒後
  4. 5 安全かつスムーズに⾛⾏するためには先の状況を 予測しながら運転する必要がある • ⼈間のドライバーは、経験的に 「この先で歩⾏者が出てくるかも?」 「前の⾞が急ブレーキを踏むかも?」 と未来を想像しながら運転している • AI

    ⾃動運転システムも、同じように周囲の状況 変化をシミュレートする能⼒が必要 運転と予測 かもしれない運転をしましょう - 群馬県警 より引用 世界モデル
  5. 8 ⾃動運転世界モデルの⻑期予測を安定化 • カーブや交通量の多い都市部といった困難なシナリオでも破綻しにくい • 動画⽣成の品質だけでなく,⽣成された軌道の評価⽅法も提案 シンプルでコンパクト • ⼊⼒はフロントカメラの動画のみ(追加のセンサや教師情報は使わない) •

    学習データは 280 時間分程度の運転動画、モデルサイズは 0.47 B パラメータ 連続モデル vs 離散モデル • フローマッチングベースの連続モデルと離散トークンモデルのどちらが良いか NeurIPS 2025 に採択
  6. 9 Orbis 全体像 図は Orbis: Overcoming Challenges of Long-Horizon Prediction

    in Driving World Models (著者スライド) から引用 画像トークナイザ 世界モデル • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現: 連続ベクトルとしても離散トークンとして も使えるようにする • ⼀旦学習したら固定し、以降は各フレーム の画像をトークン化して扱う • 潜在表現列から次のフレームの潜在表現を 予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を 使えるようにしている • ⾃⼰回帰的(過去の数フレーム分の潜在か ら未来のフレーム潜在を順次⽣成する)に 動作し、⻑いシーケンスを繰り返し予測で きる
  7. 10 Orbis 全体像 図は Orbis: Overcoming Challenges of Long-Horizon Prediction

    in Driving World Models (著者スライド) から引用 画像トークナイザ • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現: 連続ベクトルとしても離散トークンとして も使えるようにする • ⼀旦学習したら固定し、以降は各フレーム の画像をトークン化して扱う 世界モデル • 潜在表現列から次のフレームの潜在表現を 予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を 使えるようにしている • ⾃⼰回帰的(過去の数フレーム分の潜在か ら未来のフレーム潜在を順次⽣成する)に 動作し、⻑いシーケンスを繰り返し予測で きる
  8. 11 動画⽣成モデルの⽅式 • 離散:画像を細かな離散コードに量⼦化して予測する⽅法 (例: VQ-VAE+トークン予測) • 連続:⽣のピクセルや連続的な潜在ベクトルを直接予測する⽅法 (例: 拡散モデル)

    学習時の⼯夫 • 量⼦化(離散化)をランダムにバイパスすることで、⼀つのモデルで両⽅に 対応できるようにした 画像トークナイザ ~ ハイブリッドトークン表現 ~ 図は Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (著者スライド) から引用 連続ベクトルと離散トークンを両⽅扱えるハイブリッドトークン表現
  9. 12 Semantic (意味) トークンと Detail (詳細) トークン • Semantic: 画像中のオブジェクトやレイアウトなど⾼レベルな情報を捉える

    ◦ DINOv2 から蒸留している. • Detail: テクスチャや細かなディテールを保持する 画像トークナイザ ~ ⼆種類の潜在表現 ~ ⼆つを組み合わせて画像を再現することで、意味構造と細部の両⽅をうまく表現できるようにしている
  10. 14 Orbis 全体像 図は Orbis: Overcoming Challenges of Long-Horizon Prediction

    in Driving World Models (著者スライド) から引用 世界モデル • 潜在表現列から次のフレームの潜在表現を 予測するモデル • 連続モデル‧離散モデルの⼆通りの実装を 使えるようにしている • ⾃⼰回帰的(過去の数フレーム分の潜在か ら未来のフレーム潜在を順次⽣成する)に 動作し、⻑いシーケンスを繰り返し予測で きる 画像トークナイザ • 画像をトークン化するモデル • Transformer エンコーダ + CNN デコーダ • ハイブリッドトークン表現: 連続ベクトルとしても離散トークンとして も使えるようにする • ⼀旦学習したら固定し、以降は各フレーム の画像をトークン化して扱う
  11. 16 世界モデル ~ ⼆種類の⼿法 ~ 離散 (MaskGIT) 連続 (Flow Matching)

    • 拡散モデルに似た逐次的ノイズ除去プロセ スを学習するフレームワーク • ランダムノイズからターゲットの次フレー ム潜在表現を⽣成する時間発展関数(フ ロー)を学習する • 各時刻の潜在コード(離散トークン列)に 対し、マスク付きトークン予測を⾏う • 次フレームの潜在トークンをマスクした状 態からスタートし、徐々にマスクを実際の コードに置き換えていく 公平な⽐較 • 連続‧離散のいずれもモデルも、同⼀のトークナイザを使⽤し、世界モデル側もほぼ同等 の Transformer アーキテクチャを採⽤ • 違いは、損失関数(Flow Matching vs マスク予測)や⽣成プロセス(ノイズ除去vs unmasking)のみ Lipmap+. Flow Matching Guide and Code (arXiv, 2024) Chang+, MaskGIT: Masked Generative Image Transformer. (CVPR, 2022)
  12. 18 • 学習: ◦ BDD100K と OpenDV から抽出した 280 時間分の動画フレーム(都市部‧昼間‧晴天が

    メイン) ◦ トークナイザ学習⽤には追加で、 Honda HAD, Honda HDD, ONCE, nuScenes, nuPlan からも抽出。 • 評価: ◦ 学習に⽤いていないデータで汎化能⼒を評価。 ◦ nuPlan (800 シーケンス) ◦ Waymo Open Dataset (400 シーケンス) ◦ nuPlan-turns (400 シーケンス): 交差点で曲がるシーンだけを集めたセット。モデルが ターン動作にどれだけ対応できるか。 ◦ 他のベースライン⼿法には nuPlan を学習に⽤いているものもあるので、評価時は公平 性のために nuplan は参考値程度。メインの評価は waymo や選別ターンセットで⾏ う。 実験 ~ データセット ~
  13. 19 • 解像度 ◦ 512 x 288 (⾼解像度モデル) ◦ 256

    x 256 (低解像度モデル) ◦ トークナイザにより、空間解像度が x16 まで圧縮される。 • フレーム数 ◦ 潜在モデルには 5 Hz でサンプルされた 5 フレーム分のコンテキストが⼊⼒される • 計算資源 ◦ Ablation ⽤の低解像度モデルの学習は BDD100K のサブセットを⽤いて、 A100 32 枚で 1 ⽇⾏う。 ◦ ⾼解像度モデルの学習は 10 epoch を A100 72 枚で 5 ⽇以上かけて⾏う。 実験 ~ 学習設定 ~
  14. 20 FVD (Frechet Video Distance) と JEDi • 画像‧映像の外観的なリアリズムや多様性を評価。値が低いほど現実のビデ オ分布に近い。

    • 提案⼿法 (Orbis) はベースライン⼿法を⼤きく上回っている。 • しかも,学習に要するデータ量も少ない 実験 ~ 動画の⽣成品質 ~
  15. 21 実験 ~ ⻑期予測 ~ • 離散版のOrbis-MGは短いホライゾンではVistaやGEMと同等の性能を⽰したものの、⻑ホ ライゾンになるにつれてFVDが悪化しやすく、特にターンのようなシナリオでは連続版 (Orbis) との差が顕著。

    • 離散版 Orbis-MGではマスク予測時のヒューリスティック(どのマスクをどの順に埋める か等)に性能が敏感で、⼀貫した⻑尺⽣成にはチューニングが難しい⾯が⾒られた。 • 連続版 Orbis(-FM) は個々の設計選択に頑強で、安定して⾼品質な予測を続けられた。 ⻑ホライゾン予測には連続潜在表現アプローチの⽅が有利
  16. 22 ⽣成映像から VGGT を⽤いて 推定される⾃⾞の軌跡データに着⽬し,現実の軌 跡分布と⽐べた適合率‧再現率を測る指標を提案 • 現実にあり得る運転挙動をどれだけ網羅し、逆に、不視線な挙動をどれだけ 抑制できているかを⾒る指標. •

    適合率が低い:実データに存在しない異様な軌跡を⽣成 • 再現率が低い:実データで⾒られる多様な挙動の⼀部を再現できていない. 実験 ~ 軌道の品質 ~ ベースライン⼿法よりも⽣成する軌道が⾃然で網羅性も⾼い
  17. 23 ⾮条件(unconditional)のモデル vs 将来軌道で条件づけたモデル • ある程度は指⽰通りの曲がり⽅‧進⾏をさせることができ,軌道の品質も良 くなった. • しかし,⾼レベルコマンド(右折‧左折‧直進など)やテキスト⼊⼒などは 試されていない.

    実験 ~ ⾃⾞のモーションを⼊れてみる ~ 与えられた直近映像から将来の映像を⽣成する (特に制約なし) ⾃⾞の将来経路を制御⼊⼒として与える (この軌道を通った映像を作って欲しい)
  18. 24 DINO からの蒸留は要るのか? • GAIA-1 と同じアプローチ. DINO 蒸留により,FVD は下がるが, rFID

    (再構 成FID) は上がってしまう場合もある. トークン分解は要るのか? • 要る. また,離散モデル (Orbis-MG) に⽐べ,連続モデル (Orbis) は設計の変更に頑健 実験 ~ トークナイザの設計 ~ DINO も効くけど,トークン分解はもっと効く
  19. 25 ⾃動運転世界モデルの⻑期予測を安定化 • カーブや交通量の多い都市部といった困難なシナリオでも破綻しにくい • ⽣成品質を映像の品質だけでなく,軌道としても評価 シンプルでコンパクト • ⼊⼒はフロントカメラの動画のみ(追加のセンサや教師情報は使わない) •

    学習データは 280 時間分程度の運転動画、モデルサイズは 0.5 B パラメータ 連続モデル vs 離散モデル → 連続モデルのほうが良い • ハイブリッド トークナイザ を導⼊し、フローマッチングベースの連続モデルと離散トーク ンモデルのどちらが良いか公平に⽐較 とはいえ,細かな内容物の⽣成精度には課題がある • 信号機や標識の表⽰など • 歩⾏者や他⾞両の動きにも時折不規則な挙動が⾒られる • ⽣成された⾞両が必ずしも交通ルール(信号や⾞線)を守っていない場合がある • 追加の環境知識(地図‧信号状態の⼊⼒など)を与えておらず、データセットが昼間晴天 で構成されていて、夜間‧荒天の状況を網羅していない. まとめと課題
  20. 26 • [MaskGIT] Huiwen Chang, Han Zhang, Lu Jiang, Ce

    Liu, William T. Freeman. MaskGIT: Masked Generative Image Transformer. In CVPR, 2022. • [Flow Matching] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le.Flow matching for generative modeling.arXiv preprint arXiv:2210.02747, 2022. • [GEM] Mariam Hassan, Sebastian Stapf, Ahmad Rahimi, Pedro Rezende, Yasaman Haghighi, David Brüggemann, Isinsu Katircioglu, Lin Zhang, Xiaoran Chen, Suman Saha, et al. Gem: A generalizable ego-vision multimodal world model for fine-grained ego-motion, object dynamics, and scene composition control. In CVPR, 2025. • [Vista] Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, and Hongyang Li. Vista: A generalizable driving world model with high fidelity and versatile controllability. In Advances in Neural Information Processing Systems (NeurIPS), 2024. • [Cosmos] Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, et al. Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575, 2025. • [DrivingWorld] Xiaotao Hu, Wei Yin, Mingkai Jia, Junyuan Deng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, and Ping Tan.Drivingworld: Constructingworld model for autonomous driving via video gpt.arXiv preprint arXiv:2412.19505, 2024. • [GAIA-1] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado.Gaia-1: A generative world model for autonomous driving.arXiv preprint arXiv:2309.17080, 2023. • arXiv preprint: https://arxiv.org/pdf/2507.13162v1 • 著者の発表スライド:https://neurips.cc/media/neurips-2025/Slides/118316.pdf • プロジェクトページ: https://lmb-freiburg.github.io/orbis.github.io/ • code: https://github.com/lmb-freiburg/orbis 参考⽂献