Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV勉強会@関東 ICCV2025 読み会] World4Drive: End-to-End...

Avatar for abemii_ abemii_
November 16, 2025

[CV勉強会@関東 ICCV2025 読み会] World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model (Zheng+, ICCV 2025)

2025/11/16 に開催された CV勉強会@関東 ICCV2025 読み会の資料です。

紹介する論文:
Yupeng Zheng, Pengxuan Yang, Zebin Xing, Qichao Zhang, Yuhang Zheng, Yinfeng Gao, Pengfei Li, Teng Zhang, Zhongpu Xia, Peng Jia, Dongbin Zhao. World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model. In ICCV, 2025.

arXiv:
https://arxiv.org/abs/2507.00603

code:
https://github.com/ucaszyp/World4Drive

Avatar for abemii_

abemii_

November 16, 2025
Tweet

More Decks by abemii_

Other Decks in Technology

Transcript

  1. 紹介する論⽂: World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World

    Model Yupeng Zheng1,2,3, Pengxuan Yang1,2, Zebin Xing1, Qichao Zhang1, Yuhang Zheng4, Yinfeng Gao1, Pengfei Li5, Teng Zhang2, Zhongpu Xia1, Peng Jia2, and Dongbin Zhao1 (1 CASIA, 2 Li Auto, 3 PCL, 4 NUS, 5 Tsinghua) Michiya Abe @abemii_ Nov. 16, 2025. コンピュータビジョン勉強会@関東 ICCV 2025 読み会 ※資料中の図表等は特に記載のない限り上記論⽂から引⽤ ※ 発表内容は発表者の所属機関と⼀切関係しません
  2. 2 背景 | ⾃動運転システムとは? https://www.nuscenes.org/nuscenes ⼊⼒ ⾞載センサの⼊⼒‧地図情報を(いい感じに)処理して,⾃⾞の経路計画‧制御を⾏う RGB カメラ画像 ⾼精度地図

    (HD Map) LiDAR 点群 さまざまなセンサ 出⼒ t=1 t=2 t=3 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 t=0 アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす
  3. 3 背景 | ⾃動運転のアプローチ RGB カメラ画像 知覚 3D 物体検出 ⾛路認識

    予測 モジュールベースアプローチ:各機能のモジュールを個別に最適化 End-to-End アプローチ:単⼀のニューラルネットワークで⼀気に経路計画を出⼒ RGB カメラ画像 経路計画 t=1 t=2 t=3 t=0 • 他⾞両の将 来軌跡 • 歩⾏者の意 図 ニューラルネットワーク 将来軌跡 制御司令
  4. 4 背景 | End-to-End ⾃動運転モデルの代表例 (UniAD) 物体検出 地図予測 運動予測 占有予測

    経路計画 BEV特徴 Hu+, Planning-oriented Autonomous Driving, CVPR 2023. UniAD (2023) 以降,End-to-End アプローチの研究が多く出てきた 産業的にも Tesla FSD をはじめ多くの⾃動運転システムが E2E 化 複数視点カメラの画像から(サブタスクとして物体検出‧マップ推定などを⾏いつつ) 最終的に⾃⾞の将来の経路を⼀気通貫に予測する単⼀のニューラルネットワーク
  5. 5 E2E モデル:センサ⼊⼒から経路計画までを⼀気に出⼒するモデル 世界モデル:⾃⾞が⾏動したら世界はどう変わるかを予測‧⽣成するモデル 背景 | 世界モデル 動画⽣成アプローチ (例: Vista)

    • 未来のフレーム列を 拡散モデルで⽣成 世界モデル = 未来の世界を想像して安全な⾏動を選べるように E2E モデルを⽀える内部モデル ⾃⼰回帰アプローチ (例: GAIA-1) • 画像/⾏動をトークン列にし て次トークン予測 代表的なアプローチ 潜在表現アプローチ (例: LAW) • 画像から潜在表現を構築し ,将来の潜在表現を予測 [Li+, 2025] [Hu+, 2023] [Gao+, 2024]
  6. 6 World4Drive 「意図」ごとの将来の世界を想像し,最適なものを採⽤して経路計画を出⼒する E2E ⾃動運転モデル • 意図を考慮した潜在ワールドモデルを構築 • カメラ画像から物理潜在表現(空間‧意味‧時間)を作り,意図ごとの将来の潜在表現を予測 •

    セレクターによって「実際の将来」に最も近い潜在を選び,対応する軌跡を最終出⼒ • 3D bbox や HD Map などのアノテーションは不要で,nuScenes/ NavSimで SOTA 級の性能 ICCV 2025 に採択
  7. 7 World4Drive 動画⽣成アプローチ (例: Vista) • 未来のフレーム列を 拡散モデルで⽣成 ⾃⼰回帰アプローチ (例:

    GAIA-1) • 画像/⾏動をトークン列にし て次トークン予測 潜在表現アプローチ (例: LAW) • 画像から潜在表現を構築し ,将来の潜在表現を予測 • 知覚のアノテーションが不要 • 単⼀モーダルで意図が反映さ れていない. • ⾼画質 • 固定⻑⽣成が中⼼で,経路 計画との結合が弱い • ⻑期の時系列を扱いやすい • 離散化で画質‧精度が落ち やすい World4Drive: • 映像の⽣成はせず,潜在表現で評価‧選別し,経路計画に直結させる • 意図付きのマルチ潜在表現+物理潜在表現(深度/意味/時系列)で精度‧安全性‧収束を強化する [Li+, 2025] [Hu+, 2023] [Gao+, 2024]
  8. 12 ⼿法 | 意図エンコーダ 物理潜在エンコーダ 意味‧空間‧時間の情報を統合した 潜在特徴を作る 意図エンコーダ ゴール地点‧コマンドの情報を埋め込む ドリーマー

    意図ごとの将来の潜在特徴を予測 セレクター 最適な将来潜在特徴‧経路を選ぶ 経路予測 複数の将来経路を予測 と,そのまえに...
  9. 13 そのまえに... 典型的な経路計画モジュール/プランナーの構造 (UniAD など) プランクエリ Q plan (D) Self-

    Attention Cross- Attention FFN Transformer Decoder x N 層 メモリ F (N mem x D) t=1 t=2 t=3 t=0 MLP 経路 (T x 2) ※ランダムに初期化するか,自車の オドメトリの埋め込みや,コマンド(右 折・左折・直進)の埋め込みを使う ※複数出力することもある (マルチモーダル) ※画像/BEV特徴・周囲の物体や地図の埋め込みなど
  10. 14 意図(どこに⾏く?右折/左折/直進?)を埋め込んだプランクエリを作る ⼿法 | 意図エンコーダ 軌跡ボキャブラリ • ⼤量の軌跡ボキャブラリ V を⽤意

    • V の終点を k-means でクラスタリング コマンド(右折‧左折‧直進)ごとに K 個ずつの意図点 P I (3 x K x 2) をつくる → 正弦埋め込みにより 意図クエリ Q I に • エゴクエリ Q ego と合成し,意図が反映された プランクエリ Q plan をつくる K = 6 エゴクエリ (ランダムに初期化) N x S x 2 (N: 個数 = 8192, S: 中間点数)
  11. 17 ⼿法 | 物理的潜在エンコーダ コンテクストエンコーダ と 時間集約モジュールを使って, 意味‧3Dジオメトリ‧時間の情報を埋め込んだ世界潜在表現を作る • コンテクストエンコーダ:

    意味 (セマンティックセグメンテーション) と3Dジオメトリを埋め込む • 時間集約モジュール: 時間コンテクストに富んだ潜在表現を得る
  12. 18 ⼿法 | 物理的潜在エンコーダ の コンテクストエンコーダ 3D ジオメトリエンコーダ • Metric3D

    で深度マップを得る • 各画素の 3D 位置 p=(x,y,z) 順投影 → 正弦位置埋め込み E t を得る 意味の学習 • Grounded-SAM でオープンボキャブ ラリの擬似ラベルを⽣成 • クロスエントロピーで最適化 意味/空間認識視覚特徴   ができた Grounded-SAM: Ren+, 2024. Metric3D v2: Hu+, 2024.
  13. 19 ⼿法 | 物理的潜在エンコーダ の 時間集約モジュール コンテクストエンコーダ と 時間集約モジュールを使って, 意味‧3Dジオメトリ‧時間の情報を埋め込んだ世界潜在表現を作る

    • コンテクストエンコーダ: 意味 (セマンティックセグメンテーション) と3Dジオメトリを埋め込む • 時間集約モジュール: 時間コンテクストに富んだ潜在表現を得る Cross Attention で 1 フレーム前の コンテクストを集約する
  14. 22 ⼿法 | 意図を考慮した世界モデル の ドリーマー 意図ごとに将来を想像 (ドリーマー) して,最も近い未来を選ぶ (セレクター)

    ドリーマー: 意図ごとの将来潜在表現   を予測 • 経路計画モジュールにより, 意図ごとの将来軌跡の候補を⽣成 • T を埋め込んだアクショントークン A と Cross Attention して,将来の潜在表現を得る
  15. 23 ⼿法 | 意図を考慮した世界モデル の セレクター 意図ごとに将来を想像 (ドリーマー) して,最も近い未来を選ぶ (セレクター)

    セレクター: どの世界潜在表現/経路 を選ぶか [学習時] • 予測潜在表現 と実潜在表現 の距離を⽐較し, 最⼩の意図 j を選択 • 将来の潜在表現の再構成損失: L recon (MSE) • スコア学習: L score (Focal) • 選ばれた経路の損失: L traj (L1 など) [推論時] • スコアが⼀番良いものを選ぶ 実装をみるともっといろいろ組み合わせていそうだった
  16. 24 実⾛⾏データセットを⽤いて評価を実施 実験 nuScenes (オープンループ評価) 実⾛⾏データから「将来3秒の計画軌跡」を どれだけ正しく予測できるか 実際に⾞を動かすのではなく,GT (正解軌 跡)

    とのズレを測る⽅式 • シーン数: 1000 (20 秒/シーン = 5.6 時間, ボストンやシンガポールの⾛⾏データ) • 指標: ◦ L2 (m): 将来の 3 秒間の L2 誤差 ◦ 衝突率 (%): 予測軌跡が他⾞/障害物 と幾何的に交差する割合 NavSim (クローズドループ評価) OpenScene を⽤いたデータ駆動シミュレー ション 予測した軌跡で実際に⾛らせる(LQR制御で 追従)ことで,累積誤差‧安全性‧運転の滑 らかさを総合評価 • シナリオ数: train 1,192 / test 136 • 予測ホライゾン: 2Hz × 4秒(計画を追 従させて評価) • 指標: ◦ NC (%): 過失衝突なし率 ◦ DAC (%): ⾛⾏可能領域遵守度 ... など
  17. 25 おまけ | クローズドループとオープンループ クローズドループ: ⾃分が動くと世界も動く センサデータ モデル 世界の状態 が変化

    経路計画/ 制御指令 時刻 0 ⾏動の結果, 世界の状態が変化 ⾛⾏ログ 時刻 1 どんどんずれていく ことも SSII2025 [OS3-01] End-to-End⾃動運転の実応⽤の現場から
  18. 26 センサデータ モデル 経路計画/ 制御指令 世界の状態 変化なし ⾛⾏ログ (GT) ⽐較

    おまけ | クローズドループとオープンループ 時刻 0 時刻 1 ずれていったのに, 次の時刻では元通り ⾛⾏ログ オープンループ: ⾃分は動いても世界は動かない SSII2025 [OS3-01] End-to-End⾃動運転の実応⽤の現場から
  19. 27 オープンループでは,アノテーション不要で SOTA 級 クローズドループでも,カメラ⼊⼒のみでは SOTA 級 • ベースライン (LAW)

    よりも PDMS が顕著に改善 実験 | 結果 アノテーションあり なし アノテーションあり なし オープンループ (nuScenes) クローズドループ (NavSim)
  20. 28 実験 | Ablation 構成要素 (深度+意味+WM (世界モデル)+意図) • 意図を与えると効果あり (1,

    2) • 深度や意味を与えるとそれぞれ L2, 衝突率に効く (2, 3, 6) • そもそも世界モデルをなくしてしまうと,性能が劣化 (5, 6) 天候‧時間帯別 • ベースライン (LAW) と⽐べると,夜間の L2 は悪化したが, 衝突率は下がっている. • 夜間と⾬のような視覚的に難しい条件で性能が上がったのは, 物理的潜在エンコーダで空間的‧意味的情報を理解したから. コマンド(右折‧左折‧直進)別 • どの条件でもベースラインより性能が向上. その他,スケーラビリティ(バックボーン‧ hidden dim),何秒後の潜在表現を予測するか,学 習速度の検証もしていた
  21. 29 実験 | 定性的結果 ベースライン (LAW) と⽐較すると, 提案⼿法は旋回時の軌道がより GT と近く

    なっている. いくつかの候補を出⼒し,最もスコアが⾼ いものを選ぶ仕組みになっているが, 実際に選ばれた経路が⼀番 GT に近い経路 となっている.
  22. 30 • World4Drive ◦ 3D bbox や HD Map などのアノテーション不要で

    E2E ⾃動運転モデルを学習 ◦ 物理潜在表現(深度+意味+時系列)と意図(コマンド/マルチモーダル)で未来を複数 仮説⽣成 ◦ セレクターが最も現実に近い未来を選び,対応する軌跡を出⼒ • 強いところ ◦ アノテーション不要で SOTA 級,安全性(衝突率)が強い ◦ 基盤モデルの知識で物理世界の理解を強化.学習も速い ◦ 視覚的に難しい条件(夜間‧⾬天)や全ての操作でベースライン (LAW) を上回った • Limitation ? ◦ 物理潜在エンコーダで,深度/セグメントを基盤モデルに依存しているのはデプロイ時に 課題になりそう. まとめ
  23. 31 • Yupeng Zheng, Pengxuan Yang, Zebin Xing, Qichao Zhang,

    Yuhang Zheng, Yinfeng Gao, Pengfei Li, Teng Zhang, Zhongpu Xia, Peng Jia, Dongbin Zhao. World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model. In ICCV, 2025. • Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li. Planning-oriented Autonomous Driving. In CVPR, 2023. • Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Hao Chen, Kaixuan Wang, Gang Yu, Chunhua Shen, and Shaojie Shen. Metric3d v2: A versatile monocular geometric foundation model for zero-shot metric depth and surface normal estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024. • Tianhe Ren, Shilong Liu, Ailing Zeng, Jing Lin, Kunchang Li, He Cao, Jiayu Chen, Xinyu Huang, Yukang Chen, Feng Yan, et al. Grounded sam: Assembling open-world models for diverse visual tasks. arXiv preprint arXiv:2401.14159, 2024. • Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, and Hongyang Li. Vista: A generalizable driving world model with high fidelity and versatile controllability. arXiv preprint arXiv:2405.17398, 2024. • Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080, 2023a. • Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, Tieniu Tan. Enhancing End-to-End Autonomous Driving with Latent World Model. ICLR, 2025. 参考⽂献