Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[T2] 自動運転における3次元物体認識の動向

T2
June 09, 2023

[T2] 自動運転における3次元物体認識の動向

会社紹介動画: https://youtu.be/jBpdf17obms
会社HP: https://t2.auto/

3D何でも勉強会 #2「自動運転における3次元物体認識の動向」のタイトルで発表した資料です。
https://preferred-networks.connpass.com/event/281706/

T2

June 09, 2023
Tweet

More Decks by T2

Other Decks in Technology

Transcript

  1. Copyright ©︎ T2, inc T2の紹介 自己紹介 2 辻勇気(Yuki Tsuji) E-email:

    [email protected] Github: yukitsuji LinkedIn: yuki-tsuji-0420b1b3 株式会社T2 / 技術開発部門 / 開発チームリーダー カジュアル面談、選考等受け付けておりますので、 私にご連絡いただくか会社HP(https://t2.auto/) より応募お待ちしております! 01
  2. 荷 主 消費者 政 府 レベル4自動運転技術を活用した 社会インフラを構築し、 日本の物流システムを支える 運送会社 トラック

    ドライバー トラック メーカー T2の紹介 事業ビジョン 01 0 支援・自動化なし 運転手 運転手 ― 1 運転支援 (縦or横) 運転手 運転手 限定領域 2 部分自動化 (縦&横) 運転手 運転手 限定領域 3 条件付自動化 システム 運転手 限定領域 4 高度自動化 システム システム 限定領域 5 完全自動化 システム システム 無制限 自動運転レベルの概要 レベル 対応主体 対象地域 通常時 緊急時
  3. Copyright ©︎ T2, inc T2の紹介 本事業のサービス案 4 01 物流業界においては、特に長距離輸送におけるドライバー不足の課題が顕在化していると認識。 就業規制により

    ドライバー数は更に必要に 2024年就業規制 長距離ドライバーは 過去と違い稼げない仕事に ドライバー賃金の低水準化 新規労働者が増加しないことで 高年齢化が進む 新規労働者の減少 出典:国土交通省「トラック運送業の現状等について」 出典:国土交通省「トラック運送業の現状等について」 出典:厚生労働省「トラック運転者の労働時間等の改善基準のポイント」
  4. Copyright ©︎ T2, inc センサーメーカー その他 T2の紹介 本事業のサービス案 01 顧客となる運送会社・荷主様に対して、主要物流拠点間(関東圏~関西圏)を往復する、

    自動運転トラック幹線輸送サービスを提供。 運送会社 ・ 荷主様 その他機器・サービス トラックメーカー ベース車両 高精度センサー 顧 客 顧 客 A社様 C社様 B社様 D社様 自動運転システム開発 自動運転車の運用・監視 主要ターミナル間の 運送サービス (幹線輸送)
  5. Copyright ©︎ T2, inc 一般道 大拠点 小拠点 支 線 荷降・荷積

    荷受人 大拠点 小拠点 支 線 荷降・荷積 荷受人 T2の紹介 オペレーション想定 01 関東圏⇔関西圏の物流拠点間の幹線輸送を初期の対象として段階的に拡大させていく。 高速直結の物流拠点は限定的の為、初期は高速を出た所に「切替拠点」にて、 有人運転へ切り替えて拠点まで運ぶオペレーションを想定。 荷 積 荷 降 有人運転 運転手 荷受人 荷受人 運転手 一般道 有人運転 無人運転 無 人 一般道 一般道 高速 T2事業範囲 運転手 運転手 切替拠点 切替拠点
  6. Copyright ©︎ T2, inc 3Dにまつわる技術要素 02 可視化 VisualizerをC++, CUDA, OpenGL,

    ImGui等を用いてFrom scratchで実装。 巻き戻し機能、アルゴリズムの結果の3D表示、詳細な分析結果の表示など、自由度が高くパフォーマンス最適化された可視化を実現。 センサー同期、可視化 センサー同期、外部パラメータ推定 カメラ・LiDARの同期を高精度で実現。高速道路では高速度(例: 時速80km/h=22.2m/s)で動作するため、カメラのシャッタータイミン グとLiDARの照射タイミングの合わせ込みが不可欠。カメラの内パラ、センサー間の外パラも精度の追い込みが必須。
  7. Copyright ©︎ T2, inc 自己位置推定アルゴリズム 3Dにまつわる技術要素 02 HD map情報(白線・標識, etc.)とカメラ認識結果、LiDAR点群を

    照合し自己位置推定を行う GNSS, IMUの結果と統合することで非GNSS受信環境下でも安定 動作するアルゴリズムを開発 認識アルゴリズム 近・中距離では極めて高い精度で認識を実現、センサーフュー ジョンによる更なる精度向上に取り組み中。 自己位置推定・認識
  8. Copyright ©︎ T2, inc 3Dにまつわる技術要素 02 LiDAR odometry, IMU, GNSS等の結果を統合し高精度3次元地図を作成(左図)

    地図精度向上のため、3次元物体認識結果を用いて動的物体を削除した点群(赤色が障害物の点群)を活用(右図) 東京-大阪間をカバーする大規模地図の利用が必要なため、データ構造の省メモリ化やアルゴリズム・実装面での工夫をした 自己位置推定アルゴリズムの開発が必要 3次元点群地図の作成よび地図点群を用いた自己位置推定アルゴリズム 自己位置推定・認識
  9. Copyright ©︎ T2, inc 本題 03 画像の物体検出で使われる矩形 Position: X, Y

    Size: Width, Height 3次元物体認識:前提知識 2D Bounding Box 3次元空間上での物体検出で使われる直方体 Position: X, Y, Z Rotation: Roll, Pitch, Yaw Size: Length, Width, Height 3D Bounding Box
  10. Copyright ©︎ T2, inc 本題 03 センサーフュージョンを行うことで、各センサーの良いとこ取りを狙う 3次元物体認識:前提知識 LiDAR Radar

    カメラ 認識Model メリット デメリット カメラ 色・輪郭など遠距離でも得られる情報量が多い 距離が分からない LiDAR 距離が分かる、Radarより解像度が高い 悪天候に弱い Radar 悪天候に強い、速度が分かる 解像度が低い、ノイズが多い センサー同期 前処理
  11. Copyright ©︎ T2, inc 本題 03 3次元空間を格子状に区切ったもの メリット:空間上の関係性、高さ情報を明示的に利用可能。 デメリット:3D CNNの処理が重い。Sparse

    3D Convolutionを 使うことで処理速度、メモリ使用量を削減でき るがDeployが難しい。 3次元物体認識:前提知識 Voxel 3次元空間を鳥瞰(上から)で見たときのView メリット:2D CNNが利用可能でDeployが容易。 デメリット:空間上の関係性、高さ情報の特徴量への上手な 落とし込みが必要 BEV (Bird Eye View)
  12. Copyright ©︎ T2, inc 本題 03 BEV spaceの各Pixel毎に、点群の特徴量をNNを使って生成。PointNetがよく使われる 3次元物体認識: LiDAR-Only

    3D object detection PointCloud ⇒ BEV (代表例: PointPillars[1]) [2] https://arxiv.org/pdf/2106.13365v1.pdf PointCloud ⇒ Voxel ⇒ BEV (代表例: SECOND[2]) 点群をVoxelizeし、3D Sparse Convolutionを利用して3次元空間の特徴量を生成し高さ方向にDownsampleしていくことでBEV特徴量を生成 [1]https://arxiv.org/abs/1812.05784
  13. Copyright ©︎ T2, inc 本題 03 画像の特徴量をVoxel, BEV空間にどのようにProjectionするか a. 点群を画像上に投影して各点毎に特徴量を取得し、LiDAR特徴量とConcatする

    (ex: PointPainting) b. Voxel Feature (or BEV)と対応する画像Featureを用いて各Voxel毎にFusionされた特徴量を生成する (ex: AutoAlignv2) c. 画像からDepthを予測し、画像特徴量をVoxel, BEV空間にProjectionする。その後LiDAR BEV featureとConcatする (ex: BEVFusion) 3次元物体認識: 画像とLiDARのFusion Image feature projection to Voxel and BEV space 画像: https://arxiv.org/pdf/2205.13790.pdf
  14. Copyright ©︎ T2, inc 本題 03 画像からDenseなBEV featureを生成することが可能 画像およびLiDAR branchが同じBEV空間上で特徴量を生成できるため、実装がシンプルでDeployしやすい

    Waymo Open Dataset, Nuscenes datasetなど主要なデータセットでSOTAだった 3次元物体認識: 画像とLiDARのFusion (BEVFusion) BEVFusion: a simple and robust lidar-camera fusion framework BEVFusion : https://arxiv.org/pdf/2205.13790.pdf
  15. Copyright ©︎ T2, inc 本題 03 3次元物体認識: 画像とLiDARのFusion (BEVFusion) BEVFusion:

    a simple and robust lidar-camera fusion framework BEVFusion : https://arxiv.org/pdf/2205.13790.pdf
  16. Copyright ©︎ T2, inc 本題 03 画像特徴量(C)をVoxel空間にProjectionするには、内パラ、外パラ、DenseなDepthが必要 DenseなDepth画像は画像から生成する必要があるが、画像から生成されるDepthの分散は大きい ⬇ 一定距離毎(例えば0.5m毎)にProjection

    Lineを区切ったClassification task (D次元)としてDepth distribution(α)を予測 距離毎にαCを計算し、外パラを用いてカメラ座標系からBEV座標系の該当PixelにProjection(u, v, d) -> (bev_x, bev_y) Depth distribution含めてEnd-to-Endで学習を行う 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Image to Voxel space projection of BEVFusion: LSS 画像: https://arxiv.org/pdf/2205.13790.pdf
  17. Copyright ©︎ T2, inc 本題 03 遠距離になればなるほど点群の密度は低くなるため、カメラ情報とのFusionは効果がある Camera streamとLiDAR streamどちらかが特徴を上手く抽出できればBEVFusionによって検出可能

    一方で、BEV fusionの場合はCamerastreamとLiDAR streamと別々で動いているので、両方共ミスするとBEVFusionでも失敗するケースがある ⬇ Point-Level fusionとFeature-Level fusionも掛け合わせることが必要 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Fusionによる精度向上 画像: https://arxiv.org/pdf/2205.13790.pdf
  18. Copyright ©︎ T2, inc 本題 03 実際の車両で動かすことが大事 - OSSを研究で利用することは簡単だが、そのまま車両にDeployはできない -

    単なる研究で終わらないことを意識する必要がある - NVIDIAが提供しているTensorRT (Model inference library)を利用 - GPUメモリ使用量やLatencyなどリソース使用量を意識する必要がある Integration詳細 - 3D Pointcloud backbone: PillarFeatureNet+ PillarScater+ Backbone (2D CNN) - 2D Camera backbone: Darknet + FPN - TensorRT Custom Plugin 1. PillarScatter: PillarFeatureNetをBEV spaceにProjectionする際に利用 2. LSS in image transformer to BEV: 画像特徴量をBEV spaceにProjectionする際に利用 工夫点: LSSに必要となる入力の内、事前計算できる部分をCacheしておく カメラ毎に、内パラ・外パラが既知であり、Depthの次元も事前に決定するため、 カメラ座標系(u, v, d)からBEV space (bev_x, bev_y)へのProjectionする際の対応関係は事前に計算可能 3次元物体認識: 画像とLiDARのFusion (BEVFusion) 実際にTensorRT C++にDeployしてみた PointPillars: https://arxiv.org/abs/1812.05784 BEVFusion : https://arxiv.org/pdf/2205.13790.pdf
  19. Copyright ©︎ T2, inc 本題 03 GPU: NVIDIA GeForce RTX

    2070 / CUDA: 11.7 /TensorRT: 8.4.1 T2内部のデータセットで学習したモデルを用いて検証 画像サイズ: 256 x 704を6枚 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Latency / frame Memory usage Pytorch FP32 243ms 1.75GB Pytorch Mixed 150ms 1.5GB TensorRT FP32 496ms 2.13GB TensorRT FP16 46ms 1.4GB 実際にTensorRT C++にDeployしてみた
  20. Copyright ©︎ T2, inc 本題 03 - Attention (b) +

    LSS (c)を利用した研究が多くなってきている - Query, Key, Valueをどのように表現するのか、精度・速度面の向上を目指す - (時間がなくて説明していないが)時系列方向でのフュージョンも行うことで精度向上が可能 3D occupancy grid estimationの研究に注目が集まり始めている - Occupancy gridを利用することで、落木やタイヤなどレアな検出対象物を認識しやすい - 利用されているアルゴリズムは3次元物体検出やSegmentationの流用が多いので、3次元物体検出を理 解していれば入門しやすい 将来の動向 センサーフュージョンモデルの研究の方向性