SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

End-to-End ⾃動運転の実応⽤の現場から阿部理也 Turing 株式会社 E2E ⾃動運転チーム 1

登壇者紹介 2019/09 東京⼤学⼤学院情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan
深層学習を⽤いた⾞載カメラ画像による周辺物体‧⾛路認識技術の研究開発 2025/01 ~ Turing End-to-End の完全⾃動運転モデルの開発阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴興味のある領域 2 画像ベースの End-to-End ⾃動運転モデル，量⼦化，⾼速化

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 3

チューリング株式会社累計調達額: 70億円従業員数: 90名会社概要事業完全⾃動運転⾞の開発基盤AIによる実現を⽬指す設⽴:
2021年8⽉代表取締役: ⼭本⼀成 5

End-to-Endモデルで東京を⾛る 6 ⾃社で収集‧構築した⾃動運転データセットで学習東京都内を30分間⾛⾏させる⽬標を掲げる

https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画将来の⾃⾞の状態（位置‧姿勢‧速度など）の系列 t=0
アクセル‧ブレーキステアリング制御加速度や舵⾓などを指令して⾞を動かす⾃動運転システムとは…？⾞載センサの⼊⼒‧地図情報を（いい感じに）処理して，⾃⾞の経路計画‧制御を⾏う 8 RGB カメラ画像⾼精度地図 (HD Map) LiDAR 点群様々なセンサ出⼒

End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural
Network を使って画像から⾞の経路を直接出⼒画像 LiDAR点群 HDマップ知覚 • 物体認識 • 標識認識 • レーン認識予測 • 移動予測 • 将来マップ予測 • 交通エージェント計画 • 探索問題 • 経路計画制御 • 制御アルゴリズム【従来】モジュールベースアプローチ: 個別に最適化した機能別モジュールから構成 9

End-to-End ⾃動運転アプローチの研究物体検出マップ予測運動予測占有率予測⾏動計画 BEV特徴 Hu+ (2023),
“Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 10 UniAD (2023) 以降，End-to-End アプローチの研究が多く出てきているマルチビューカメラの画像から，サブタスクとして物体検出‧マップ推定などを⾏いつつ，最終的な⾃⾞の経路を⼀気通貫に予測する 1 つのニューラルネットワーク

End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速駐⾞場から⾃動で発進し，他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチ
ナビで⽬的地を設定すれば，ほとんど無介⼊でレーンチェンジや右左折をしながら⽬的地に到達できる Turing の⾃動運転モデルもこのアプローチ！

Turing の E2E ⾃動運転モデル: TD-1 12 様々な認識と予測タスクを⾏うことで「世界を表すベクトル」を獲得する初めて⾛⾏する場所でも、周囲を認識して経路を⽣成することが可能に単⼀の Neural
Network 3D物体認識 & 移動予測マップ認識 BEV 3次元特徴マルチカメラ画像経路⽣成将来の経路

Turing の E2E ⾃動運転モデル: TD-1 13 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測
(出⼒) 実際の⾛⾏データを⽤いてデータセットを構築し，モデルの学習‧評価を実施

Q. どちらが良い⾛⾏でしょうか？ 16 A マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒)

Q. どちらが良い⾛⾏でしょうか？ 17 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒) B

Q. どちらが良い⾛⾏でしょうか？ 18 答え：わからない検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず，
実際に⾞両に乗せて制御⾛⾏してみると⼤きく違う． → オープンループ‧クローズドループのギャップ

オープンループ vs クローズドループ 19 オープンループセンサデータモデル経路計画/ 制御司令世界の状態
変化なし⾛⾏ログ (GT) ⽐較時刻 0 時刻 1 ずれていったのに，次の時刻では元通り⾛⾏ログ

オープンループ vs クローズドループ 20 クローズドループセンサデータモデル世界の状態が変化経路計画/
制御司令時刻 0 ⾏動の結果，世界の状態が変化⾛⾏ログ時刻 1 どんどんずれていくことも

オープンループ vs クローズドループ 21 オープンループセンサデータモデル経路計画/ 制御司令世界の状態
変化なし⾛⾏ログ (GT) ⽐較センサデータモデル経路計画/ 制御司令世界の状態が変化クローズドループこのギャップを埋めるためには…？

オープンループ vs クローズドループ 22 実際に⾛⾏しないと何もわからないモデルとシステムの繋ぎこみのエンジニアリングや，実際に⾛らせてみることがとても⼤事

オープンループ vs クローズドループ 23 3D Gaussian Splatting によるクローズドループシミュレータ（開発中）

推論速度との戦い 25 交通シーンは時々刻々と変化歩⾏者今 1 秒後時間リアルタイム (10
Hz 以上) で動作させる必要

推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6
1.8 VAD-Base 224.3 4.5 VAD-Tiny 59.5 16.8 PARA-Drive* 239.5 5.4 いずれも A100 や RTX3090 などのデータセンター‧ハイエンドGPUでの結果本当に重要なのは，エッジデバイスでの推論時間 Hu+. Planning-oriented Autonomous Driving. CVPR, 2023. Jiang+. VAD: Vectorized Scene Representation for Eﬃcient Autonomous Driving. ICCV, 2023. Weng+. PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving. CVPR, 2024.

推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA
Core 数 ↑ 6912 2048 Tensor Core 数 ↑ 432 64 メモリ ↑ 40 64 (uniﬁed memory) TFLOPs ↑ 19.5 5.3 データセンター向けGPUとエッジ向けGPUのスペック⽐較データセンターで⾼速に動いても，そのままではエッジデバイスで動かない https://www.nvidia.com/en-us/data-center/a100/ https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/

(例) 推論時の無駄を削る！推論速度との戦い 28 入力 1 入力 2 入力 3
モジュール 1 モジュール 2 モジュール 3 入力 1 入力 2 入力 3 (計算済み) モジュール 1 モジュール 2 実は毎フレーム同じデータが⼊っているのでは？ → 毎回計算しなくて良いから計算済みの値を⼊れよう！モデルのアーキテクチャやデプロイ時の量⼦化などの⼯夫により， Orin でも 70 ms 程度の Latency を達成！

JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ，桁違いに多いシーン数データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD
small (300) JADD middle (1000) JADD standard (10000) JADD mini (20) nuScenesのサイズ (1000) JADD standard (30000) JADD large (164000) JADD standard (70000) 机上で信号に反応信号でstop&go ⼀時停⽌できた交差点で歩⾏者を待てた東京中を⾛⾏し，シーン数を増やしていくだけで，モデルが強くなっていった（アルゴリズムの改善よりも遥かに利得が⼤きい）

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう．データの「質」 31 ⾞両 A ⽐較⾞両 B 加⼯前（⽣画像）

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう． → 歪補正の⼯夫により，ほぼ同じ画⾓になるように加⼯データの「質」 32 ⾞両 A ⽐較⾞両
B ⾞両間の「差」を減らすことで，他の⾞両でも同じように⾛れるようにする！加⼯後（歪補正後）

データ収集ドライバー間での⾛⾏の仕⽅の違いに注⽬⼀時停⽌線での停⽌位置‧左折時のコース取り‧加減速の仕⽅など単に模倣学習しただけでは，平均化されて中途半端な⾛⾏になってしまった → ドライバー間の⾛⾏の違いを分析‧⾛り⽅をフィードバックデータの「質」 33 モデルにとって「嬉しい」質の良いデータを収集‧選別することが重要曲がり⽅停⽌位置
曲がり⽅停⽌位置

• E2E ⾃動運転モデルや，要素技術としての認識モデルの研究は⽇々進化 • しかし，実際にモデルで⾞両を動かすまでには多くの障壁があり，泥臭いエンジニアリングやデータの⼯夫によって解決していく必要がある • ティザー動画に驚くだけでなく、実際に動かしてみることが⼤切まとめ 35

SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Featured

Transcript

End-to-End ⾃動運転の実応⽤の現場から阿部理也 Turing 株式会社 E2E ⾃動運転チーム 1

登壇者紹介 2019/09 東京⼤学⼤学院情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

チューリング株式会社累計調達額: 70億円従業員数: 90名会社概要事業完全⾃動運転⾞の開発基盤AIによる実現を⽬指す設⽴:

End-to-Endモデルで東京を⾛る 6 ⾃社で収集‧構築した⾃動運転データセットで学習東京都内を30分間⾛⾏させる⽬標を掲げる

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画将来の⾃⾞の状態（位置‧姿勢‧速度など）の系列 t=0

End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural

End-to-End ⾃動運転アプローチの研究物体検出マップ予測運動予測占有率予測⾏動計画 BEV特徴 Hu+ (2023),

End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速駐⾞場から⾃動で発進し，他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチ

Turing の E2E ⾃動運転モデル: TD-1 12 様々な認識と予測タスクを⾏うことで「世界を表すベクトル」を獲得する初めて⾛⾏する場所でも、周囲を認識して経路を⽣成することが可能に単⼀の Neural

Turing の E2E ⾃動運転モデル: TD-1 13 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

Q. どちらが良い⾛⾏でしょうか？ 16 A マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒)

Q. どちらが良い⾛⾏でしょうか？ 17 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒) B

Q. どちらが良い⾛⾏でしょうか？ 18 答え：わからない検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず，

オープンループ vs クローズドループ 19 オープンループセンサデータモデル経路計画/ 制御司令世界の状態

オープンループ vs クローズドループ 20 クローズドループセンサデータモデル世界の状態が変化経路計画/

オープンループ vs クローズドループ 21 オープンループセンサデータモデル経路計画/ 制御司令世界の状態

オープンループ vs クローズドループ 22 実際に⾛⾏しないと何もわからないモデルとシステムの繋ぎこみのエンジニアリングや，実際に⾛らせてみることがとても⼤事

オープンループ vs クローズドループ 23 3D Gaussian Splatting によるクローズドループシミュレータ（開発中）

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

推論速度との戦い 25 交通シーンは時々刻々と変化歩⾏者今 1 秒後時間リアルタイム (10

推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6

推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA

(例) 推論時の無駄を削る！推論速度との戦い 28 入力 1 入力 2 入力 3

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs

JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ，桁違いに多いシーン数データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう．データの「質」 31 ⾞両 A ⽐較⾞両 B 加⼯前（⽣画像）

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう． → 歪補正の⼯夫により，ほぼ同じ画⾓になるように加⼯データの「質」 32 ⾞両 A ⽐較⾞両

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs