Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

More Decks by 画像センシングシンポジウム

Transcript

  1. 登壇者紹介 2019/09 東京⼤学⼤学院 情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan

    深層学習を⽤いた⾞載カメラ画像 による周辺物体‧⾛路認識技術の 研究開発 2025/01 ~ Turing End-to-End の完全⾃動運転 モデルの開発 阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴 興味のある領域 2 画像ベースの End-to-End ⾃動運転モデル,量⼦化,⾼速化
  2. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 3
  3. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 4
  4. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 7
  5. https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 t=0

    アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす ⾃動運転システムとは…? ⾞載センサの⼊⼒‧地図情報を(いい感じに)処理して,⾃⾞の経路計画‧制御を⾏う 8 RGB カメラ画像 ⾼精度地図 (HD Map) LiDAR 点群 様々なセンサ 出⼒
  6. End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像 将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural

    Network を使って画像から⾞の経路を直接出⼒ 画像 LiDAR点群 HDマップ 知覚 • 物体認識 • 標識認識 • レーン認識 予測 • 移動予測 • 将来マップ予測 • 交通エージェント 計画 • 探索問題 • 経路計画 制御 • 制御アルゴ リズム 【従来】モジュールベースアプローチ: 個別に最適化した機能別モジュールから構成 9
  7. End-to-End ⾃動運転アプローチの研究 物体検出 マップ予測 運動予測 占有率予測 ⾏動計画 BEV特徴 Hu+ (2023),

    “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 10 UniAD (2023) 以降,End-to-End アプローチの研究が多く出てきている マルチビューカメラの画像から,サブタスクとして物体検出‧マップ推定などを⾏いつつ, 最終的な⾃⾞の経路を⼀気通貫に予測する 1 つのニューラルネットワーク
  8. End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速 駐⾞場から⾃動で発進し,他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチ

    ナビで⽬的地を設定すれば,ほとんど無介⼊でレーンチェンジや右左折をしながら⽬的地に到達できる Turing の⾃動運転モデルもこのアプローチ!
  9. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 14
  10. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 15
  11. Q. どちらが良い⾛⾏でしょうか? 18 答え:わからない 検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず,

    実際に⾞両に乗せて制御⾛⾏してみると⼤きく違う. → オープンループ‧クローズドループのギャップ
  12. オープンループ vs クローズドループ 19 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態

    変化なし ⾛⾏ログ (GT) ⽐較 時刻 0 時刻 1 ずれていったのに, 次の時刻では元通り ⾛⾏ログ
  13. オープンループ vs クローズドループ 20 クローズドループ センサデータ モデル 世界の状態 が変化 経路計画/

    制御司令 時刻 0 ⾏動の結果, 世界の状態が変化 ⾛⾏ログ 時刻 1 どんどんずれていく ことも
  14. オープンループ vs クローズドループ 21 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態

    変化なし ⾛⾏ログ (GT) ⽐較 センサデータ モデル 経路計画/ 制御司令 世界の状態 が変化 クローズドループ このギャップを埋めるためには…?
  15. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 24
  16. 推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6

    1.8 VAD-Base 224.3 4.5 VAD-Tiny 59.5 16.8 PARA-Drive* 239.5 5.4 いずれも A100 や RTX3090 などの データセンター‧ハイエンドGPUでの 結果 本当に重要なのは,エッジデバイスでの推論時間 Hu+. Planning-oriented Autonomous Driving. CVPR, 2023. Jiang+. VAD: Vectorized Scene Representation for Efficient Autonomous Driving. ICCV, 2023. Weng+. PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving. CVPR, 2024.
  17. 推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA

    Core 数 ↑ 6912 2048 Tensor Core 数 ↑ 432 64 メモリ ↑ 40 64 (unified memory) TFLOPs ↑ 19.5 5.3 データセンター向けGPUとエッジ向けGPUのスペック⽐較 データセンターで⾼速に動いても,そのままではエッジデバイスで動かない https://www.nvidia.com/en-us/data-center/a100/ https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/
  18. (例) 推論時の無駄を削る! 推論速度との戦い 28 入力 1 入力 2 入力 3

    モジュー ル 1 モジュー ル 2 モジュー ル 3 入力 1 入力 2 入力 3 (計算 済み) モジュー ル 1 モジュー ル 2 実は毎フレーム同じデータが⼊っているのでは? → 毎回計算しなくて良いから計算済みの値を⼊れよう! モデルのアーキテクチャやデプロイ時の量⼦化などの⼯夫により, Orin でも 70 ms 程度の Latency を達成!
  19. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 29
  20. JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ,桁違いに多いシーン数 データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD

    small (300) JADD middle (1000) JADD standard (10000) JADD mini (20) nuScenesのサイズ (1000) JADD standard (30000) JADD large (164000) JADD standard (70000) 机上で 信号に反応 信号でstop&go ⼀時停⽌できた 交差点で歩⾏者 を待てた 東京中を⾛⾏し,シーン数を増やしていくだけで, モデルが強くなっていった (アルゴリズムの改善よりも遥かに利得が⼤きい)
  21. 1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

    End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 34