Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CVPR2022読み会] Time3D: End-to-End Joint Monocula...

Inoichan
August 07, 2022

[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

第11回 全日本コンピュータビジョン勉強会 CVPR2022論文読み会(前編)で発表した資料です。
https://kantocv.connpass.com/event/253622/?utm_campaign=event_reminder&utm_source=notifications&utm_medium=email&utm_content=detail_btn

論文タイトル:Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving
https://openaccess.thecvf.com/content/CVPR2022/html/Li_Time3D_End-to-End_Joint_Monocular_3D_Object_Detection_and_Tracking_for_CVPR_2022_paper.html

Inoichan

August 07, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. 自己紹介 ❏ Inoue Yuichi TURING Inc.で自動運転開発 京都大学 博士(薬学) Kaggle competition

    grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan TURING Wantedly→https://www.wantedly.com/companies/turing-motors
  2. Object trackingについて CenterTrackやDeep Affinity NetworkのようなDeep learningを用いた手法が提案されてきた。しか し、自動運転の文脈では未だにいくつか弱点がある。 - 物体検出とAssociation(IDの紐づけ)を別々に行うので、3D物体検出の不確実性をうまく Detectorに学習させることができていない。

    - 同じカテゴリーの物体は似た外観の特徴 (appearance)を持っている。さらに、自動運転の文脈 では物体は頻繁に画像から消えたり、速度のバリエーションが高い。 - 表面の特徴や位置の情報を直接制約として使っていないので、追跡している物体の動きがな めらかでない。
  3. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.
  4. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. anchor-freeな手法で、key pointsを予 測し、3D bboxを推定する手法
  5. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. Keypointでもうまく使えるような Feature pyramid networkを提案。
  6. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. Position attributeを計算するために微 分可能な射影幾何の制約を加え、 ネットワークに組み込んだ。
  7. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Wang, Zhongdao, Liang Zheng, Yixuan Liu, Yali Li, and Shengjin Wang. 2019. “Towards Real-Time Multi-Object Tracking.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1909.12605. Re-ID embeddingはJoint Detection and Embeddingの枠組みを採用。 検出した物体の中心にある Embeddingを使う。
  8. Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature):Vector空間 ❖ 位置や次元、向き(geometric feature):Euclidian空間 この2つの特徴をうまく組み合わせるのは難しかった。

    全部NNで合わせちゃおう! 2D box corner 3D box corner PointNet Qi, Charles R., Hao Su, Kaichun Mo, and Leonidas J. Guibas. 2016. “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1612.00593. Geometric feature Re-ID feature One-hot Class + Appearance feature Feature extractor
  9. Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので

    Positional encodingは使わない。 どれだけ前のタ イムポイントかを ここで入れる。
  10. Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので

    Positional encodingは使わない。 どれだけ前のタ イムポイントかを ここで入れる。 過去のタイムポイントの特徴量を KeyとValue に、現在の特徴量を Queryとした Cross-attentionで時刻情報を学習。
  11. Training Loss ❏ Monocular object 3D detection loss 元論文参照 →

    Link ❏ Tracking loss 外観特徴も位置特徴も明示的にモデルに組み込めている。 Affinity matrixをつかってシンプルに Crossentropy lossを計算する。 ❏ Temporal-consistency loss 新たに提案!
  12. 学習の条件 ★ BackboneはDLA-34(Imagenet pretrained weight) ★ Spatial information flow:3層のSelf attention

    ★ Temporal information flow:4層のCross attention ★ Affinity matrixは2層目のところからSoftmaxなしで取得 ★ AugmentationはShift scale ★ 画像は(900, 1600) → (448, 800)にリサイズ ★ 10 images / 2080Ti * 8 GPUs → batch size 80 ★ 200 epochs (1.25e-4 90 epoch → 1.25e-5 30 epoch → 1.25e-6 80 epoch)
  13. 結果:nuScenes test set ➢ リアルタイムで推論できる中では Trackingは圧勝! ➢ 物体検出については LiDARベースの手法に及ばないものの、 Multi-Object

    Trackingに関してはLiDARを使っ たものよりも良い結果に! ➢ Time3D‡は3D detectorとRe-ID extractor、spatial-temporal moduleを別々に学習した(no End-to-end)。 DetctionとTrackingをEnd-to-endに学習させたほうが良い! 評価指標についてはこちらのブログがわかりやすいです: Multi-Object Trackingの精度評価指標
  14. まとめ • 本研究では、リアルタイムに動作する単眼ビデオのみから、 3次元物体検出と3次元多物体 追跡をEnd-to-endで学習するための新しいフレームワークを提案した。 • 本フレームワークは、カテゴリ、 2D Box、3D Box、Re-ID特徴などのHeterogeneous

    cuesを 互換性のあるEmbeddingにエンコードする方法を示した。 • Transformerベースのアーキテクチャは、 Spatial-Temporal information flowの良い軌跡推定 器であることがわかった。 Temporal-consistency lossを使うことでより滑らかな軌跡を推定す ることができた。