[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver

S4-Driver Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal
Visual Representation project page: https://s4-driver.github.io/ arxiv: https://arxiv.org/abs/2505.24139 ※資料中図表断りない限り上記論文から引用

自己紹介 Shin • 趣味で自動運転関連技術を追っています • 自動運転用VLM Planner 分野に興味があり，自分なり「こうすべきで
」という仮説作りが最近マイブームです ◦ こ分野がど程度有望そうなか？・自分仮説正しそうなか？を調べている状態です • 自動運転に興味ある方，自動運転AIチャレンジが盛り上がっているで覗いてみてください！ ◦ 初学者向け資料などもあるで趣味でやりやすいかも？ P.S. 「自動運転xVLMで汎化性能向上を目指す」研究で博士後期課程に進学したいと考えております．まだ研究室選び段階ですが，ご興味ある研究者方がいらっしゃったらぜひお声掛けください． Twitter: @AquaRobot0202

今日紹介する論文概要 • VLMベース自動運転Plannerを大規模データで自己教師あり学習する手法を提案 ◦ VLMが2D表現みで事前学習している点に目をつけ， BEVFormerやUniAD・VADなどで使われている”pull”型
3D表現学習をVLMへ導入 • Google傘下 Waymoから論文です論文中で， - 画像 - 自車両軌道教師データみで学習することを Self-supervisedと呼称

[背景] 自動運転xVLM: Edge caseにどう対処するか？ • 自動運転におけるEdge case 人間事前想定を超える ◦
しかし，レベル4以上自動運転システムで，運行設計領域外事象でも Minimal Risk Maneuverによりリスクを最小限にしないといけない • Robot manipulation分野で，VLM, VLAを使用した手法が汎化性能向上を実現 ◦ 自動運転でもVLMで汎化性能を向上できないか？と考える研究多い ▲ Edge cases introduced in DriveVLM paper ▲ Edge case reported in autoware discussion

[背景] Vision Language Actionと？ • VLA: 画像・言語・行動を統合的に使うことで，汎化性能を手に入れようとする取り組み
• Robot manipulation分野で，OpenVLA, Physical Intelligence π0 が有名 https://arxiv.org/abs/2406.09246

[Robot manipulation分野で例] OpenVLA: An Open-Source Vision-Language-Action Model • Input:
画像, 言語指示(Language Instruction) • Output: Robot action(7次元) • (1)画像・言語特徴量を (2)language embedding spaceにmapping(projector)し， (3)VLMで処理 https://arxiv.org/abs/2406.09246 Robot actionをどう扱っているか？ • Robot 動作 0-255に離散化 • llamaに 100 ”special tokens”があり，ﬁne tuning時に新しくtokenを導入可能 • 100で足りないで，使用頻度低い順に 256個 tokenを選んできて(least used)上書きする • next-token predictionとして学習

[Robot manipulation分野で例] OpenVLA: 他手法よりも汎化性能が高い見たことない背景見たことない
位置，角度見たことないサイズ，形見たことない物体,指示, 概念言語で指定された物体 manipulation 学習データ分布内タスク, 条件学習データ分布外物体,タスク, 背景,概念 https://arxiv.org/abs/2406.09246 manipulation datasetに含まれていない概念に対応 e.g.”Taylor Swiftへと缶を動かして”

自動運転xVLM: inputとoutput 例 VLM ※正確に言うと複数パターンがあります - textに埋め込んでtrajectoryを出力(上記例) -
ﬂoat 数値でtrajectoryを出力 - trajectory tokenとしてtrajectoryを出力 Output: 自車軌道(trajectory, waypoints) Input: 画像とText prompt camera images high-level command historical ego-vehicle states

VLMで汎化性を向上できるか？: 先行研究で例 ◀ 先行研究(DriveVLM) • 木を避けるような trajectoryを生成

VLMで汎化性を向上できるか？: 先行研究で例 ◀ 先行研究(DriveVLM) • 人 gestureを見て適切な trajectoryを生成

自動運転xVLM: 性能に課題あり ◀ 先行研究(DriveVLM) 結果 • DriveVLM(VLM自動運転モデル)単体で VAD(言語使用していない手法)に及ない
• DriveVLM-Dualで VLM+VADを結合 vanillaなVLMベース手法性能面で他手法に負けてしまう先行研究でもVLM単体でなく，VLM+Camera input deep plannerを統合して使用なぜか？ S4-Driverで，「VLM 2D画像による事前学習をしているため，　3D空間で知識を獲得できていないで」と推測

自動運転xVLM: 性能に課題あり Multi-task learningすれ良いが，アノテーションが必要 ... • 三次元情報を抽出できていない •
データ量が不足している Multi-task(e.g. bbox, lane detection) learningすれ改善可能．しかし今度 human annotationがbottleneckとなってしまい，dataset sizeが増やせない... • 3D空間で planningに最適な表現が獲得できていない • Data scaleが足りていないという2つ課題に同時に対処する必要あり． ◀ 先行研究(EMMA) 例 • BBox, laneを検出させている • 「sub taskを追加すれ強くなる」「でもsub taskにヒト・モノ・カネが要る」というジレンマ...

S4-Driver: “pull”型 3D空間で表現学習 x 巨大なデータセットで自己教師あり学習 • 三次元情報を抽出できていない
• データ量が不足している S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation • 3D空間で表現 : Sparse volume representationで対処 ◦ BEVFormerやUniAD・VADなどで使われている”pull”型 3D表現学習をVLMへ導入 • データ量: Self-supervised learningで学習することで対処 ※S4-Driverで，画像・過去 trajectory・将来 trajectory GT みを使用して学習することを　Self-Supervisedと呼称しています ▲Sparse volume representationにより三次元情報を抽出 ▲ 574時間も巨大なデータセットを構築

[個人的な感想] 自動運転xVLM: 性能に課題あり ◀ 先行研究(DriveVLM) 結果 • DriveVLM(VLM自動運転モデル)単体で VAD(言語使用していない手法)に及
ない • DriveVLM-Dualで VLM+VADを結合 vanillaなVLMベース手法性能面で他手法に負けてしまう • 三次元情報を抽出できていない • データ量が不足している Multi-task(e.g. bbox, lane detection) learningで改善する．しかし今後 human annotationがbottleneckとなってしまい，dataset sizeが増やせない... そこで以下 2つ課題に同時に対処する手法を提案 : S4-Driver • 3D空間で planningに最適な表現が獲得できていない • Data scaleが足りていない個人的な感想 • Open loopな評価だけで判断できるか？ • Edge case 対応がVLM 強みなで？と思うが， Edge case 入ったデータセットで対応可能性評価ができていない

S4-Driver: 手法概要 ※ちなみにこ図に誤植があるそうです．私友人が，S4-Driver著者に直接聞いたところ，Text
Representation pM 誤植で本来タイムスタンプ数が入るとこと

S4-Driver: 手法概要全体流れ ①複数フレーム・複数視点画像を3D表現に変換 ②行動指示(high level command),
過去軌道を含むtextをtokenize ③Intra-modality(画像同士・text同士) token attention bias追加 ④MLLMに画像とtext tokenを入力し，trajectoryを出力

2D特徴量抽出 • ViT-G (2B) vision encoderを使用して各画像特徴量を抽出
• 複数時刻における複数視点画像を使用

2D -> 3D projection • 3D空間点を2D画像上点に変換 • 対応点周辺
画像特徴量ををbilinear samplingし，3D 空間各点特徴量とする

背景: 2D -> 3D projection: push型とpull型 SimpleBEV, BEVFormer: 3Dから2Dへ “pull”
LSS: 2Dから3Dへ “push” • 2D画像からdepth推定し，BEV特徴量を取得 • depth情報を使って2D画像を3D特徴量に変換 ◦ 2D+depthで3Dへ”押し出す” Simple-BEV: What Really Matters for Multi-Sensor BEV Perception? • 3D volume 中心点を，座標変換行列を使って2D 画像に投影．対応する2D画像特徴量を取得 ◦ 2D特徴量を”引っ張ってきて ” 3D特徴量とする

背景: 2D -> 3D projection: pull型例: BEVFormer BEVFormer Spatical
Cross Attentionについて，以下２つ資料が大変わかりやすいで参照お願いします！ • [CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術進化 Turing Inc, 棚橋耕太郎さん • 第27回画像認識・理解シンポジウム MIRU2024 自動運転ためビジョン技術デンソーITラボラトリ／東京工業大学佐藤育郎さん BEVFormer で BEV Queryと Spatial Cross Attentionで対応 (deformable attention使用) BEVFormer S4-Driver 評価でbaselineとして用いられている UniADやVAD backboneでも使用 https://arxiv.org/abs/2203.17270 https://arxiv.org/abs/2212.10156

2D -> 3D projection: pull型方法を採用 Simple-BEV: What Really Matters
for Multi-Sensor BEV Perception? • voxel 座標(x,y,z)を各視点v 画像に投影 • 対応する2D座標(uv, vv)取得 • (uv, vv)周辺特徴量をbilinear samplingする • voxel 特徴量，全視点から local semantic feature 平均とする ▲ 3D座標を2Dに投影し，　投影先 2D特徴量を　　 sampleして平均する 3次元特徴量が抽出できた！-> だが，3次元空間 volume すかすか．もったいない...

voxel 剪定: gate • 3D空間ほぼすかすか ◦ 無駄なvoxelが多い • planningに有用なdenseなvoxel
だけを選択 • denseかどうかを判定する特徴量を作成 ◦ gateと呼れる0~1 値

voxel 剪定: gate • 3D空間内全voxelから，denseなvoxelをM個だけ選びたい • 2D特徴量から，gate(0~1)という特徴量を得て，そ
値大小でdensityを判定 3D空間内ほとんど sparse denseな場所だけ特徴量を抽出したい motion planningで道路から離れた物体詳細な情報(e.g. 建物や木) 必要ない • gate(0~1)値が小さいvolume ，「empty」もしく「planningに関係ない」とみなす • gate(0~1)値が小さいvolume 「vacantである」という情報を表す特徴量重みを大きくする

voxel 剪定: gate値取得 “3D空間内 denseな場所どこか ”を推定 ①2D特徴量からf_gate(2D)を計算 ②f_gate(2D)を”pull”してf_gate(3D)を計算
③f_gate(3D)からgateを計算 ④gate 値が大きい M個(e.g. 6000) volumeを選ぶ

voxel 剪定: gateで重みづけ denseなら3D特徴量重みを大きくする ①gate 値を3D特徴量重みにする ②1- gateを”vacant”を表
す特徴量重みにする

Visual Representation: 全体流れ gate • 各frameごとにf_gate(3D)を計算 • concatして処理して，各voxelごと
gate値に変換特徴量 • 各frameごとに，3D座標を2D空間に投影し，samplingして3D特徴量を計算．gate値を基にM個選択する • concatして処理して，各voxelごと 3D特徴量に変換

• 行動指示(high level command), 過去軌道を含むText Prompt を作成 • tokenizeする
Text Representation: 全体流れ ※ちなみにこ図に誤植があるそうです私友人が，S4-Driver著者に直接聞いたところ，Text Representation pM 誤植で本来タイムスタンプ数が入るとこと

Text Representation: Input Prompt 自車両中心座標系で推論 high-level behavior commandで行動を指示過去
trajectory, velocity, accelerationを渡す ◀ 6種類 “stop” 信号機情報などがleakする可能性があるで使用しない

Multimodal Encoder: Attention bias • Multimodal Encoderで画像・textを処理 • S4-Driverで，MLLM
pretrained encoder に，あまり変更を加えず，token同士繋がり情報を含めたい • Intra-modality(画像同士・text同士) token Self-attentionにattention bias追加

Multimodal Encoder: Attention bias • “pull”する際に，depth情報が存在しないで各 camera rayに沿ってvolume featureが重複
◦ depth方向に並ぶ複数 voxelが，似た semantic featureを持ってしまう • Simple-BEVで convolution, BEVFormerで deformable attentionを使用して対処 • S4-Driverで，pretrained MLLMに新しく operationを追加したくない ◦ Attention biasで対処

画像特徴量 M個 volume同士 Self-attentionを計算 M個 volumeとM個 volume 距離 D [M,M,3]
を作成しQKからb(D)を引く．距離が近いほどattention weightが大きく，遠いほどattention weightが小さくなる b(D) = bx(Δx) + by(Δy) + bz(Δz) Multimodal Encoder: Attention bias

depth情報が不足しているため、式 3また 7 lifting処理で、各camera rayに沿ってvolume featureが重複してしまいます。こ空間的な曖昧さ
、畳み込み [20, Simple-BEV] やdeformable attention[31, BEVFormer] ような3D local operationによって軽減できます。しかし、我々 MLLMフレームワークで、追加局所演算を挿入すること economicalでありません。代わりに、既存 multimodal encoderにrelative positon biasを組み込むことで、Self-attentionを調整(tailoring)します。

Attention bias: b() どんな関数? Δを32個 binに分割．近距離物体に対して高解像度 mx() ，bin から
learnable bias mapping関数 bin-wise biasがある方がADE下がる -128 128 8 -8 0 8 bins 8 bins 16 bins

S4-Driver: 手法概要 ※こ図に誤植があるそうです．私友人が，S4-Driver著者に直接聞いたところ，Text Representation pM
誤植で本来タイムスタンプ数が入るとこと ①複数フレーム・複数視点画像を3D表現に変換 Multimodal Encoder ③Intra-modality (画像同士・text同士) token Self-attention に attention bias追加 ②行動指示 (high level command), 過去軌道を含むtextを tokenize

CoT: Meta-decision • 2段階推論を実施 • 1段階目で，Meta-decisionを推論 ◦ 加速状態:
keep stationary, keep speed, accelerate, decelerate • 2段階目で trajectoriesを推論

trajectory生成: nucleus sampling and aggregation • 簡単な行動に高いconﬁdenceを割当てがち • nucleus sampling(top-p
sampling, p=0.9)して 16本 trajectoriesを生成し， 16本をaggregationする • 詳細記載なし: 以下自分理解 ◦ 「nucleus samplingして生成」* 16回 ◦ 16本を平均する

評価: bADE 導入 • Planning 評価難しい．様々な評価方法，様々な指標がある． • S4-Driverで，Open-loop評価
み実施． • 加えて，behaviorそれぞれにおけるADE 平均(bADE)を評価指標として提案

評価: Planner 評価指標難しい．ゆえに様々な指標がある評価方法 • Open-loop: 車両行動に依存して次frame 車両状態が変化しない．log-replay.
• Closed-loop: 車両行動に依存して次frame 車両状態が変化 ◦ Agent non-reactive: 周囲車が自車両に反応しない ◦ Agent reactive: 周囲車が自車両に反応評価指標 • GTと L2距離 • ADE: 平均的なGTとずれ • FDE: 最終的なpointで GTとずれ • Collision rate • Miss rate(経路逸脱) • PDMS: 複数指標組み合わせ • RFS: 人が作成した経路候補に点数がついており，近い経路点数をスコアとする

評価: bADE 導入 • S4-Driverで，Open-loop評価み実施 ◦ L2: GT
trajectoryと L2距離 ◦ ADE: 平均的なGTとずれ ▪ datasetに含まれるbehaviorが不均衡．直進や停止かり評価になる ◦ bADE: |B|個 behaviorそれぞれ ADEを平均(bADE) ▪ それぞれ behaviorでどれくらいなかを考慮

Open-loop評価: 比較結果(nuScenes) Multi-task e2e approaches で VADが強い nuScenes みで学習(Extra dataなし)
1,2,3秒後で GTから L2距離 S4-Driver nuScenes みを使用した場合 VADと同等

Open-loop評価: 比較結果(nuScenes) Multimodal LLM approaches で OmniDriveが強いただし，独自 labeled data使用
OmniDrive論文を見ると，こ値 Omni-Q++ 1,2,3秒後で GTから L2距離 S4-Driver unlabeled data(raw driving log) みを使用し， labeled dataを使用する OmniDriveと同等

Open-loop評価: 比較結果(Waymo Open Dataset) ADE, bADE(|B|=7) S4-Driver 工夫を含めない MLLM(Vanilla PaLI)よりもbADE
が低い物体検出結果やroad graphを使う手法よりもbADEが低い • S4-Driverにおける工夫でbADE 低くなる (ただ，Closed-loopでないで，誤差蓄積によって時系列安定性がどうなるか，など不明)

Open-loop評価: 定性評価 • 左折・直進・U-turnなど実行できているようだ • generalizationが強み
ずだが，可視化一般的なシーンみ．ど程度 edge caseに対応できるか不明

結論 • S4-Driver ◦ Human annotationを使用せず，スケールする形でVLM系自動運転Planner 性能を引き出す手法を提案 • 所感
◦ Raw driving data(+heuristic)だけでここまでやれるというかなり有望 ▪ (VLMなでまず oﬄine plannerか階層planner向けだと考えられるが) ◦ 巨大なデータがなけれ難しいアプローチであることも確か • 気になるポイント ◦ 汎化性能高さがどれくらい他手法(OmniDrive, DriveVLM, VAD, UniAD)より優れているかが気になる ◦ 時系列安定性どうか？ ◦ Open-loop評価みが実施されているが，Closed-loop評価だとどうなるか？ ◦ Appendix motion trajectory tokenization評価も有益．最終的にどれが残るか？

参考資料論文 • S4-Driver: https://arxiv.org/abs/2505.24139 • BEVFormer: https://arxiv.org/abs/2203.17270 • Simple-BEV:
https://arxiv.org/abs/2206.07959 • UniAD: https://arxiv.org/abs/2212.10156 • VAD: https://arxiv.org/abs/2303.12077 • Senna: https://arxiv.org/abs/2410.22313 • DriveVLM: https://arxiv.org/abs/2402.12289 • EMMA: https://arxiv.org/abs/2410.23262 • OmniDrive: https://arxiv.org/abs/2405.01533 資料 • [CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術進化 Turing Inc, 棚橋耕太郎さん • 第27回画像認識・理解シンポジウム MIRU2024 自動運転ためビジョン技術デンソーITラボラトリ／東京工業大学佐藤育郎さん • autoware discussion: The interface between Perception and Planning lacks suﬃcient information

[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver

[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver

Other Decks in Research

Featured

Transcript