Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Generative Predictive Model for Autonomous Driv...

Kento Sasaki
August 02, 2024

Generative Predictive Model for Autonomous Driving 第61回 コンピュータビジョン勉強会@関東 (後編)

2024年の6月17日~21日にかけて開催されるコンピュータビジョンのトップカンファレンスの一つである 「Conference on Computer Vision and Pattern Recognition (CVPR) 2024」の論文読み会(後編)です。

URL: https://kantocv.connpass.com/event/321175/

Kento Sasaki

August 02, 2024
Tweet

More Decks by Kento Sasaki

Other Decks in Research

Transcript

  1. Generalized Predictive Model for Autonomous Driving 佐々⽊ 謙⼈ Turing株式会社 第61回

    コンピュータビジョン勉強会@関東 2024.8.3 (Sat)
  2. ⾃⼰紹介 1 佐々⽊ 謙⼈ @kento_sasaki1 チューリング株式会社 ⽣成AIチーム リサーチエンジニア • 2023年チューリングの初期メンバーとして参画

    • 完全⾃動運転の実現に向けた⽣成AIの研究開発を推進 • CVPR 2024 Computer in the Wild Workshop採択 • MIRU 2024 8/8 (Thu) 10:10-11:10 ⼝頭発表
  3. Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights

    & Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ◦ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ◦ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 2 http://vlm.nejumi.ai/
  4. 複雑な運転シーンにどう対処する? 5 ローカルの⾔語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 ⼈間の⾝体的 指⽰の理解

    ⼈間は無意識のうちに多くの 「⽂脈」を理解している ⾼度な⾃動運転には 視覚と⾔語、物理世界の理解 が必要不可⽋
  5. 複雑な運転シーンにどう対処する? 6 ローカルの⾔語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 ⼈間の⾝体的 指⽰の理解

    ⼈間は無意識のうちに多くの 「⽂脈」を理解している ⾼度な⾃動運転には 視覚と⾔語、物理世界の理解 が必要不可⽋ ➢ マルチモーダルAI ➢ 世界モデル
  6. 3rd Generation Autonomous Driving 7 Generative AI Empowered Big Data

    High-Fidelity Data Scene Understanding Driving Inference Real-Time QA Behavior Prediciton Decision Making&Planning Act as Human Driver End-to-End Prediciton Autonomous Driving with LLMs/VLMs [Lincan Li+ 2024]
  7. 書誌情報 9 Generalized Predictive Model for Autonomous Driving Jiazhi Yang1*,

    Shenyuan Gao2,1*, Yihang Qiu1*, Li Chen3,1, Tianyu Li1, Bo Dai1, Kashap Chitta4,5, Penghao Wu1, Jia Zeng1, Ping Luo3, Jun Zhang2, Andreas Geiger4,5, Yu Qiao1, Hongyang Li1. 1. OpenDriveLab and Shanghai AI Lab 2. Hong Kong University of Science and Technology 3. University of Hong Kong 4. University of Tübingen 5. Tübingen AI Center Highlight 🌠 https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Generalized_Pr edictive_Model_for_Autonomous_Driving_CVPR_2024_paper.pdf 以降、図表は論⽂からそのまま 引⽤します
  8. 研究⽬的 (1/3) 10 Gen 2. AD Models Bounding Box, HD

    map, etc. Unlabeled Text Data Labeled Driving Data ✅ ⼤規模なウェブデータ ✅ 収集‧スケールアップが可能 ❌ ⼩規模なラベル付きデータ ❌ アノテーションコストが膨⼤ ❌ スケーラビリティがない LLMs LLMsのようにスケーラビリティと 汎化能⼒を獲得するには?
  9. 研究⽬的 (2/3) 11 • 3Dラベルを⽤いた教師あり学習 ❌ ⼗分なラベルデータなしではスケールアップが困難 • エキスパート特徴量を⽤いた教師あり学習 ✅

    既存のエキスパートモデルを⽤いてスケールアップが可能 ✅ 特定オブジェクト(⼤きな物体や中央にある物体)に焦点を当てる ❌ 詳細だが重要な情報を無視していまう可能性がある 複雑な運転シーンをモデリングするには不⼗分 Semantic Segmentation
  10. OpenDV-2K Dataset 14 Dataset: https://huggingface.co/datasets/OpenDriveLab/OpenDV-YouTube-Language • マルチモーダル‧マルチソースのデータセット ◦ Video ◦

    Text ◦ Command • オンライン動画と公開データセットから構成 ◦ YouTube ◦ nuScenes ◦ nuPlan ◦ HAD ◦ HDD • テキストコンテキストとコマンドを含む ◦ Text: Keep going until you reach a red light. ◦ Command: Move forward.
  11. Video Prediction Model for Autonomous Driving 17 1. Image Domain

    Transfer SDXL (Diffusion Model)をOpenDV-2K Datasetを⽤いてFinetuning 2. Video Prediction Pre-training 連続するビデオフレームの⼀部を過去の観測として使⽤し、未来の複数フレームを予測
  12. Video Prediction Model for Autonomous Driving 18 Causal Temporal Attention

    過去フレームのみにAttentionし、⼀貫した未来予測を可能にする Decoupled Spatial Attention 縦横別々にAttentionし、効率的に⻑距離のモデリングを実現する Interleaved temporal blocks ⼗分な時空間の相互作⽤を提供する
  13. Task (3/4) Action-conditioned Prediction 21 Action (stop, left turn, forward,

    right turn etc.)を 与えたとき、Actionに基づく軌跡を予測する TrajectoryとTextを⼊⼒に与えるGenAD-actは Textのみを⼊⼒として与えるGenADよりも Action Prediction Errorが24%⼩さい
  14. まとめ 23 • OpenDV-2K Dataset 全世界から集めた2059時間分、最⼤の公開データセット • GenAD ◦ ⾔語条件を使⽤して妥当な未来を予測

    ◦ 汎化性能があり、ゼロショットで様々な状況に対応可 ◦ プランニングやシミュレーションに適⽤可
  15. Follow-up Research: Vista 24 Vista: A Generalized Driving World Model

    with High Fidelity and Versatile Controllability • ⾼い時空間解像度でのFidelityの向上 • 多様なモーダルのアクションによる制御