Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Teslaはカメラを使ってどのように世界を認識しているか

Inoichan
September 30, 2022

 Teslaはカメラを使ってどのように世界を認識しているか

TURINGの社内AI勉強会で発表した資料です。
Tesla AI Day 2021で紹介されたTesla車に搭載されているマルチカメラを用いた認識モデルの紹介と、それに関連しそうな論文の紹介をしています。

Inoichan

September 30, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. CONFIDENTIAL COMPANY PROFILE - Teslaの 空 間 認 識 モデル

    2021年に行われたTesla AI Dayで紹介されたModelについて簡単に紹介します。 - Teslaっぽいモデルを 作 るための 論 文 紹 介 鳥瞰図(Bird's eye view, BEV)を生成するようなモデルの論文を紹介します。    *TURINGの社内AI勉強会で紹介したときの資料です。 Outline Section 00 - 00 井ノ上 雄一 エンジニア@TURING Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan
  2. CONFIDENTIAL COMPANY PROFILE Tesla AI Day • 技術的に大きな躍進が合った時に開かれ るTesla dayのAI版

    • 2021/8/20に開催。 Link:https://www.youtube.com/watch?v=j0z4FweCy4M&t=3355s Section 00 - 00
  3. CONFIDENTIAL COMPANY PROFILE Multicameraの物体検出の難しさ Section 00 - 00 • Multi

    cameraを使ってOccupancy trackerという画像空間 を直接BEVにするようなソフトを開発したが 1. パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい • 複数のカメラで認識された一つの物体をちゃんと一つのも のとして結合させるの難しい。
  4. CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)

    SegmentationをDepth estimationとカメラパラメータを使ってBEV空間にマッピングする。さらにそれをRefineするようなCNNを作 成してBEVの精度をあげている。 面白いのはSegmentationとDepth estimationを学習させる時、車や歩行者のような遮蔽物としてランダムマスクを用いた学習を 行い、カメラからは見えない向こう側の領域をうまく学習させようとしているとこ。 Section 00 - 00
  5. CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)

    KITTIのデータセットでの結果 境界とかは結構ぼやっと出てる。 Section 00 - 00
  6. CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) 複数のカメラの入力をSegmentatino空間に落と し込み、View Parsing Network(VPN)でMLPを

    用いてBEV空間にマップしている。 シミュレーションのデータを使ってDomain adaptationで精度をあげようと試みているところも 面白い。 Section 00 - 00
  7. CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) マルチカメラの画像それぞれにCNNを個別に適応した初めての論文。 各カメラ画像から抽出した特徴量にDepth

    distributionという深さに関する情報を適応する(Lift)。カメラパラメータを用いてBEV空 間にそれらのベクトルを割り当てて(Splat)、ロードセグメンテーションやモーションプランニングといった下流のタスクに使用する (Shoot)。 Section 00 - 00
  8. CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) Section 00

    - 00 近い部分は少しきれいになってきている...!
  9. CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Section 00 - 00

    簡単な道だと予測できるようになってきてる。
  10. CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Image to BEVでTransformerを使っているわけではないが、MLPでAttentionを計算している。 Neural

    Attention Field (NEAT)moduleを2回繰り返している。実質、一回目がBEV空間への射影で、2周目でCross-attention的 な役割を果たしている? Section 00 - 00
  11. CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Section 00 - 00

    (シミュレーションだけなのでなんとも。)
  12. CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) Section 00 - 00

    白色が道の中心を表している。セグメンテーションよりもスマートな感じはある。
  13. CONFIDENTIAL COMPANY PROFILE DETR3D (CoRL 2021) Object Queryを画像空間に投写して、Object queryをリファインメントしている。 BEV

    segmentationはしていないが、Object queryはBEV空間の情報を持っている。Cross-attentionではないが、画像空間から 返ってきたベクトルたちでSelf-attentionしているので、雰囲気は近い。 BEV Segmentationはしてないが、3D空間と2D空間をCross-attentionでつないでおり、重要な論文。 Section 00 - 00
  14. CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) BEVSegFormerに時系列を考慮するためにTemporal

    Self-Attentionを追加した。 Temporal Self-AttentionもDeformable Attentionを利用しており、TeslaのSpatial RNNに近い。CVPR 2022のWaymoの Workshopで優勝しているので実際にちゃんと精度が出てる。 Section 00 - 00
  15. CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) Section

    00 - 00 BEV Segmentationに加えて車の検出や白線の 検出もかなり良くなっている印象。
  16. CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive

    2022) 画像からCNNで得られた特徴量をBEV空間に直接投写して、さらにCNNでBEV特徴量を得ているのが特徴。CNNから得た中 間特徴を投写してさらにCNNにかけることによってうまくBEV空間にもっていってる。 Simple Baselineという煽った名前つけてるのも好き。(Waymoのコンペで優勝したBEVFormerよりも良いので煽りレベル高 い。) Section 00 - 00
  17. CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive

    2022) Section 00 - 00 Segmentationがかなりきれいにできているし、物体の検出も見える範囲は特に きれい。煽ってるだけある。
  18. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 Director of Autopilot Autopilot teamの立ち上げメンバー ドン引きするくらいすごい ...
  19. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。
  20. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。
  21. CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの

    Teslaだけかも。 ➢ Teslaがやってるのコレだけ??? →まだまだすごいこといろいろやってそう!今後の発表にも期待! Section 00 - 00
  22. CONFIDENTIAL COMPANY PROFILE 参考文献 • Tesla AI Day:link • Tesla

    AI Day【翻訳レポート】過去 10年で最も素晴らしい AIプレゼンテーションのひとつ: link • Monocular BEV Perception with Transformers in Autonomous Driving:link • Monocular Bird’s-Eye-View Semantic Segmentation for Autonomous Driving:link • Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. “End-to-End Object Detection with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.12872. • Schulter, Samuel, Menghua Zhai, Nathan Jacobs, and Manmohan Chandraker. 2018. “Learning to Look around Objects for Top-View Representations of Outdoor Scenes.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1803.10870. • Lu, Chenyang, Marinus Jacobus Gerardus van de Molengraft, and Gijs Dubbelman. 2018. “Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder Networks.” arXiv [cs.RO]. arXiv. http://arxiv.org/abs/1804.02176. • Pan, Bowen, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. 2019. “Cross-View Semantic Segmentation for Sensing Surroundings.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1906.03560. • Philion, Jonah, and Sanja Fidler. 2020. “Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2008.05711. • Yang, Weixiang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, and Jia Pan. n.d. “Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-View Transformation.” CVPR2021. Link Section 00 - 00
  23. CONFIDENTIAL COMPANY PROFILE 参考文献 • Chitta, Kashyap, Aditya Prakash, and

    Andreas Geiger. 2021. “NEAT: Neural Attention Fields for End-to-End Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.04456. • Can, Yigit Baran, Alexander Liniger, Danda Pani Paudel, and Luc Van Gool. 2021. “Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.01997. • Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. • Brady Zhou, Philipp Kr Ahenb Uhl. n.d. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. UT Austin. Accessed July 30, 2022. https://github.com/bradyz. • Peng, Lang, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, and Erkang Cheng. 2022. “BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.04050. • Li, Zhiqi. n.d. BEVFormer: This Is the Official Implementation of BEVFormer, a Camera-Only Framework for Autonomous Driving Perception, E.g., 3D Object Detection and Semantic Map Segmentation. Github. Accessed May 25, 2022. https://github.com/zhiqi-li/BEVFormer. • Harley, Adam W., Zhaoyuan Fang, Jie Li, Rares Ambrus, and Katerina Fragkiadaki. 2022. “A Simple Baseline for BEV Perception Without LiDAR.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2206.07959. • [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla:link Section 00 - 00