Generative Predictive Model for Autonomous Driving 第61回コンピュータビジョン勉強会＠関東 (後編)

Generalized Predictive Model for Autonomous Driving 佐々⽊謙⼈ Turing株式会社第61回
コンピュータビジョン勉強会@関東 2024.8.3 (Sat)

⾃⼰紹介 1 佐々⽊謙⼈ @kento_sasaki1 チューリング株式会社⽣成AIチームリサーチエンジニア • 2023年チューリングの初期メンバーとして参画
• 完全⾃動運転の実現に向けた⽣成AIの研究開発を推進 • CVPR 2024 Computer in the Wild Workshop採択 • MIRU 2024 8/8 (Thu) 10:10-11:10 ⼝頭発表

Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights
& Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ◦ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ◦ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 2 http://vlm.nejumi.ai/

チューリング株式会社⾃社⽣産の電気⾃動⾞（JMS2023に出展） 3 Turingメンバーと⾞両⼯場完全⾃動運転の実現を⽬指すスタートアップ！ https://tur.ing/

複雑な運転シーンにどう対処する？ 4 この状況で左折したいどこを⾒ればよい？

複雑な運転シーンにどう対処する？ 5 ローカルの⾔語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味⼈間の⾝体的指⽰の理解
⼈間は無意識のうちに多くの「⽂脈」を理解している⾼度な⾃動運転には視覚と⾔語、物理世界の理解が必要不可⽋

複雑な運転シーンにどう対処する？ 6 ローカルの⾔語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味⼈間の⾝体的指⽰の理解
⼈間は無意識のうちに多くの「⽂脈」を理解している⾼度な⾃動運転には視覚と⾔語、物理世界の理解が必要不可⽋ ➢ マルチモーダルAI ➢ 世界モデル

3rd Generation Autonomous Driving 7 Generative AI Empowered Big Data
High-Fidelity Data Scene Understanding Driving Inference Real-Time QA Behavior Prediciton Decision Making&Planning Act as Human Driver End-to-End Prediciton Autonomous Driving with LLMs/VLMs [Lincan Li+ 2024]

Workshops for Autonomous Driving 8

Generalized Predictive Model for Autonomous Driving

書誌情報 9 Generalized Predictive Model for Autonomous Driving Jiazhi Yang1*,
Shenyuan Gao2,1*, Yihang Qiu1*, Li Chen3,1, Tianyu Li1, Bo Dai1, Kashap Chitta4,5, Penghao Wu1, Jia Zeng1, Ping Luo3, Jun Zhang2, Andreas Geiger4,5, Yu Qiao1, Hongyang Li1. 1. OpenDriveLab and Shanghai AI Lab 2. Hong Kong University of Science and Technology 3. University of Hong Kong 4. University of Tübingen 5. Tübingen AI Center Highlight 🌠 https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Generalized_Pr edictive_Model_for_Autonomous_Driving_CVPR_2024_paper.pdf 以降、図表は論⽂からそのまま引⽤します

研究⽬的 (1/3) 10 Gen 2. AD Models Bounding Box, HD
map, etc. Unlabeled Text Data Labeled Driving Data ✅ ⼤規模なウェブデータ ✅ 収集‧スケールアップが可能 ❌ ⼩規模なラベル付きデータ ❌ アノテーションコストが膨⼤ ❌ スケーラビリティがない LLMs LLMsのようにスケーラビリティと汎化能⼒を獲得するには？

研究⽬的 (2/3) 11 • 3Dラベルを⽤いた教師あり学習 ❌ ⼗分なラベルデータなしではスケールアップが困難 • エキスパート特徴量を⽤いた教師あり学習 ✅
既存のエキスパートモデルを⽤いてスケールアップが可能 ✅ 特定オブジェクト（⼤きな物体や中央にある物体）に焦点を当てる ❌ 詳細だが重要な情報を無視していまう可能性がある複雑な運転シーンをモデリングするには不⼗分 Semantic Segmentation

研究⽬的 (3/3) 12 インターネットから⼤量の⾛⾏動画を収集し、動画予測モデルを構築する →⼤量のデータを⽤いて将来フレームを予測することで運転シーンをモデリング ✅ スケーラブルなウェブデータ ✅ 3Dラベルが不要 ✅
詳細情報を保ちやすい ✅ 世界の知識と運転⽅法を学習する

GenADの概要 13

OpenDV-2K Dataset 14 Dataset: https://huggingface.co/datasets/OpenDriveLab/OpenDV-YouTube-Language • マルチモーダル‧マルチソースのデータセット ◦ Video ◦
Text ◦ Command • オンライン動画と公開データセットから構成 ◦ YouTube ◦ nuScenes ◦ nuPlan ◦ HAD ◦ HDD • テキストコンテキストとコマンドを含む ◦ Text: Keep going until you reach a red light. ◦ Command: Move forward.

OpenDV-2K Dataset 15 • ⾃動運転のための最⼤規模の公開データセット • 2059時間以上 • 244都市以上

OpenDV-2K Dataset 16 https://youtu.be/01E_6NfmQ10?si=X2R_yIATd5XN9jJc

Video Prediction Model for Autonomous Driving 17 1. Image Domain
Transfer SDXL (Diﬀusion Model)をOpenDV-2K Datasetを⽤いてFinetuning 2. Video Prediction Pre-training 連続するビデオフレームの⼀部を過去の観測として使⽤し、未来の複数フレームを予測

Video Prediction Model for Autonomous Driving 18 Causal Temporal Attention
過去フレームのみにAttentionし、⼀貫した未来予測を可能にする Decoupled Spatial Attention 縦横別々にAttentionし、効率的に⻑距離のモデリングを実現する Interleaved temporal blocks ⼗分な時空間の相互作⽤を提供する

Task (1/4) Zero-shot Generalization 19 Waymo, KITTI, Cityscapesを含むテストデータにおけるZero-shot動画予測

Task (2/4) Language-conditioned Prediction 20 ⾔語を条件に与え、未来の予測を制御する

Task (3/4) Action-conditioned Prediction 21 Action (stop, left turn, forward,
right turn etc.)を与えたとき、Actionに基づく軌跡を予測する TrajectoryとTextを⼊⼒に与えるGenAD-actは Textのみを⼊⼒として与えるGenADよりも Action Prediction Errorが24%⼩さい

Task (4/4) Planning 22 フロントビュー画像のみを与え、Trajectory予測をすると UniAD [Yihan+ 2023]と匹敵するプランニング結果が得られる ADE: Average
Displacement Error FDE: Final Displacement Error

まとめ 23 • OpenDV-2K Dataset 全世界から集めた2059時間分、最⼤の公開データセット • GenAD ◦ ⾔語条件を使⽤して妥当な未来を予測
◦ 汎化性能があり、ゼロショットで様々な状況に対応可 ◦ プランニングやシミュレーションに適⽤可

Follow-up Research: Vista 24 Vista: A Generalized Driving World Model
with High Fidelity and Versatile Controllability • ⾼い時空間解像度でのFidelityの向上 • 多様なモーダルのアクションによる制御

Generalized Predictive Model for Autonomous Driving 25 https://youtu.be/a4H6Jj-7IC0?si=Fcr0kQTbXFhF3kSc

Generative Predictive Model for Autonomous Driv...

Generative Predictive Model for Autonomous Driving 第61回コンピュータビジョン勉強会＠関東 (後編)

Kento Sasaki

More Decks by Kento Sasaki

Other Decks in Research

Featured

Transcript

Generalized Predictive Model for Autonomous Driving 佐々⽊謙⼈ Turing株式会社第61回

⾃⼰紹介 1 佐々⽊謙⼈ @kento_sasaki1 チューリング株式会社⽣成AIチームリサーチエンジニア • 2023年チューリングの初期メンバーとして参画

Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights

チューリング株式会社⾃社⽣産の電気⾃動⾞（JMS2023に出展） 3 Turingメンバーと⾞両⼯場完全⾃動運転の実現を⽬指すスタートアップ！ https://tur.ing/

複雑な運転シーンにどう対処する？ 4 この状況で左折したいどこを⾒ればよい？

複雑な運転シーンにどう対処する？ 5 ローカルの⾔語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味⼈間の⾝体的指⽰の理解

複雑な運転シーンにどう対処する？ 6 ローカルの⾔語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味⼈間の⾝体的指⽰の理解

3rd Generation Autonomous Driving 7 Generative AI Empowered Big Data

Workshops for Autonomous Driving 8

Generalized Predictive Model for Autonomous Driving

書誌情報 9 Generalized Predictive Model for Autonomous Driving Jiazhi Yang1*,

研究⽬的 (1/3) 10 Gen 2. AD Models Bounding Box, HD

研究⽬的 (2/3) 11 • 3Dラベルを⽤いた教師あり学習 ❌ ⼗分なラベルデータなしではスケールアップが困難 • エキスパート特徴量を⽤いた教師あり学習 ✅

GenADの概要 13

OpenDV-2K Dataset 14 Dataset: https://huggingface.co/datasets/OpenDriveLab/OpenDV-YouTube-Language • マルチモーダル‧マルチソースのデータセット ◦ Video ◦

OpenDV-2K Dataset 15 • ⾃動運転のための最⼤規模の公開データセット • 2059時間以上 • 244都市以上

OpenDV-2K Dataset 16 https://youtu.be/01E_6NfmQ10?si=X2R_yIATd5XN9jJc

Video Prediction Model for Autonomous Driving 17 1. Image Domain

Video Prediction Model for Autonomous Driving 18 Causal Temporal Attention

Task (1/4) Zero-shot Generalization 19 Waymo, KITTI, Cityscapesを含むテストデータにおけるZero-shot動画予測

Task (2/4) Language-conditioned Prediction 20 ⾔語を条件に与え、未来の予測を制御する

Task (3/4) Action-conditioned Prediction 21 Action (stop, left turn, forward,

Task (4/4) Planning 22 フロントビュー画像のみを与え、Trajectory予測をすると UniAD [Yihan+ 2023]と匹敵するプランニング結果が得られる ADE: Average

まとめ 23 • OpenDV-2K Dataset 全世界から集めた2059時間分、最⼤の公開データセット • GenAD ◦ ⾔語条件を使⽤して妥当な未来を予測

Follow-up Research: Vista 24 Vista: A Generalized Driving World Model

Generalized Predictive Model for Autonomous Driving 25 https://youtu.be/a4H6Jj-7IC0?si=Fcr0kQTbXFhF3kSc

Generative Predictive Model for Autonomous Driv...

Generative Predictive Model for Autonomous Driving 第61回 コンピュータビジョン勉強会＠関東 (後編)

More Decks by Kento Sasaki

Other Decks in Research

Featured

Transcript

Generative Predictive Model for Autonomous Driving 第61回コンピュータビジョン勉強会＠関東 (後編)