Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeNA, MoT合同AI勉強会発表資料 / Monocular 3D Object Dete...

DeNA, MoT合同AI勉強会発表資料 / Monocular 3D Object Detection @ CVPR2021

2021.07.01 DeNA, Mobility Technologies合同の勉強会にて発表に使用した資料です。

6/19~25でオンライン開催されたCVPR'21に参加し、CVPR'21で発表されたMonocular 3D Object Detection に関する全論文を網羅して紹介しました。

Takumi Karasawa

July 01, 2021
Tweet

More Decks by Takumi Karasawa

Other Decks in Research

Transcript

  1. Mobility Technologies Co., Ltd. 3 6/19~25 にオンラインで開催された CVPR 2021 に参加しました

    n ざっくり⽇本時間 10PM~7AM くらいの相変わらず厳しい時間帯... n 今年はマイページが⽤意され、全体的にサイト強化 n ORALは単なる称号化 CVPR2021
  2. Mobility Technologies Co., Ltd. 4 “monocular” でひっかけた論⽂のうち、3D object detection の全8論⽂を紹介

    タスクの課題感や最新⼿法の考え⽅など、お伝えできればと思います 紹介論⽂: n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n Delving Into Localization Errors for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection
  3. Mobility Technologies Co., Ltd. 5 n ⼊⼒:単眼画像、出⼒(各検出):位置 (𝑥, 𝑦, 𝑧)・サイズ

    (𝑙, ℎ, 𝑤)・向き 𝛼・カテゴリ c n KITTIベンチマーク評価対象カテゴリ:car, pedestrian, cyclist n “Monocular 3D Object Detection” というと、⾞載カメラでの撮影状況を想定することが多い n LiDARデータやステレオ画像に対して、単眼画像は明⽰的な深度情報が⽋けているため、 ⼀般的にLiDARベースの⼿法やステレオベースの⼿法に⽐べ精度が⼤きく落ちる Monocular 3D Object Detection 画像は後に紹介するMonoDLE論⽂より引⽤。KITTIデータセットへの推論例。
  4. Mobility Technologies Co., Ltd. 7 n M3DSSD: Monocular 3D Single

    Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection
  5. Mobility Technologies Co., Ltd. 8 n M3DSSD: Monocular 3D Single

    Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach Monocular 3d object detectionは、やはり depth 予測への課題感が最も⼤きい LiDAR、ステレオベースの⼿法との精度差を埋めるため、 学習済み depth estimator を⽤いる⼿法や、学習時には depth データを⽤いる⼿法も多い CVPR2021 x Monocular 3D Object Detection w/ depth est./supv. ざっくり⼤別すると depth 予測への課題感に対する論⽂
  6. Mobility Technologies Co., Ltd. 9 n M3DSSD: Monocular 3D Single

    Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection w/ depth est./supv.
  7. Mobility Technologies Co., Ltd. “M3DSSD: Monocular 3D Single Stage Object

    Detector” Motivations: n 既存 anchor ベースの⼿法には2つの feature mismatching が存在することを指摘 n depth予測において、広範囲の関係性を考慮することが重要 Proposals: 2つの提案モジュールからなる M3DSSD n 2ステップの feature alignment モジュール(shape alignment, center alignment) n feature map全体の関係性を考慮する asymmetric non-local attention block (ANAB) 1. M3DSSD 10 M3DSSD 全体図
  8. Mobility Technologies Co., Ltd. Two-step feature alignment: deformable convのようにカーネルにオフセットを適⽤ 1.

    shape alignment: anchor形状と特徴マップreceptive fieldの形状ズレ 2. center alignment: anchor/receptive field中⼼と物体中⼼のズレ Asymmetric Non-local Attention Block (ANAB): n Non-local Block (CVPRʼ18) [1]: non-local means filterを参考にした、特徴マップ全体のコンテクストを考慮するモジュール n Asymmetric Non-local Block (ICCVʼ19) [2]: key側のshapeを⼩さくし⾮対称にして効率化 n 論⽂中では、pyramid poolingとともに複数スケールで⽤いている n 単なる pyramid pooling では冗⻑と指摘し、Pyramid Average Pooling with Attention (PA2) 導⼊ 1. M3DSSD - proposals Non-local Block [1] ANB[2] shape alignment center alignment ANAB
  9. Mobility Technologies Co., Ltd. Results: SOTA *全⼿法の結果サマリー最後に載せてます *KITTI, AP3D|R40, Carカテゴリ

    で⽐較することが⼀般的 *valは少しわからないとこあるので資料内はtestで統⼀ Ablation Study: *ablation studyはvalidation set 1. M3DSSD - results ANABの効果 Two-step shape alignment の効果 KITTI test set, “Car”, IoU=0.7
  10. Mobility Technologies Co., Ltd. “Objects Are Different: Flexible Monocular 3D

    Object Detection” Motivations: n 既存⼿法は多様な物体を同⼀に扱ってしまっている、特にtruncated object は性質が異なる n depth 予測への課題感 Proposals: 2つの提案モジュールからなる MonoFlex n 明⽰的にtruncated objectを 区別するアーキテクチャ (Decoupled representation, Edge Fusion) n 異なる keypoints を使い分けた、 複数の depth 推定のアンサンブル (Adaptive Depth Ensemble) 2. MonoFlex
  11. Mobility Technologies Co., Ltd. Decoupled representation n 3d box中⼼の投影した座標(𝑥! )の、画像の内外で物体を区別

    n 外の物体は、2d box中⼼(𝑥" )と𝑥! との交点(𝑥# )を回帰 n また外の物体のみ、外れ値に強いlog-scale L1損失 Edge Fusion: n Feature mapの境界部分のみ取り出してconcat n 2つの conv1d を通して、元のfeature mapの境界部分にremapping Adaptive Depth Ensemble n 10 keypointsの定義:直⽅体 8 頂点+上⾯中⼼ + 底⾯中⼼ n depth が推定可能な3つのグループに分けてdepth推定 n 各モデルでuncertainty も併せて推定 n uncertainty で重み付けしてアンサンブル 2. MonoFlex - proposals Edge Fusion
  12. Mobility Technologies Co., Ltd. Results: SOTA Ablation Study: 2. MonoFlex

    - results decoupled representation, edge fusionの効果 各 depth 推定器の精度と ensemble の効果 KITTI test set, “Car”, IoU=0.7
  13. Mobility Technologies Co., Ltd. “MonoRUn: Monocular 3D Object Detection by

    Reconstruction and Uncertainty Propagation” Motivations: n 6DoF Pose 推定タスクでは、オブジェクトモデルを⽤いてPnP アルゴリズムで解決を図る⼿法 が localization における良い成果を残している n ただし全インスタンスについて正確なオブジェクトモデルを取得するのは難しい Proposals: オブジェクト幾何をself-supervisedに学習するMonoRUn n uncertainty予測を⽤いた、 reprojection errorにより self-supervisedを実現 n 外れ値に強い Robust KL lossの提案 n Uncertainty PnP により pose推定 3. MonoRUn 16
  14. Mobility Technologies Co., Ltd. Self-Supervised Reconstruction Network n Normalized Object

    Coordinates (NOC) [3] と dimensions を予測 n NOC: 物体ごとに正規化された3D空間座標 n NOCと併せてuncertainty mapも予測 n GTのposeで再投影し、Robust KL Lossで学習 n dimensions は supervised で学習 n LiDARデータが使⽤可能な場合、NOC損失 3. MonoRUn - proposals NOC [3] 重みwは、LiDAR gt が利⽤可能かだけの意 Robust KL Loss 外れ値に強く、multi-taskの学習バランスのた めのnormalizeを加えた損失の提案 Uncertainty-driven PnP n 推論時は、uncertainty をもとにreprojection error(Mahalanobis distance)が最も⼩さく なるようposeを決定 ↓Huber lossの考え⽅の拡張 Gaussian KL loss Laplacian KL loss mixed KL loss Robust KL loss
  15. Mobility Technologies Co., Ltd. Results: SOTA 3. MonoRUn - results

    18 「*」はdepth estimator使⽤ Ablation Study LiDAR supv. 使うかどうか reprojection error の違い latent vector使うかどうか
  16. Mobility Technologies Co., Ltd. “Delving Into Localization Errors for Monocular

    3D Object Detection” Contributions & Proposals: n 各サブタスクのもたらす影響を定量化。localization error が最重要な問題であることを提⽰ n localization error に関する詳細解析を実施し、3つの改善を提案 1. 2d bounding box と 3d object の中⼼の misalignment の⾒直し 2. 既存技術では遠⽅の物体を正確にlocalizationすることは不可能で、それらはモデルに悪影響 を与えている。そのためそれらのサンプルを学習データから取り除く 3. 物体の⼤きさ推定のための、 localization error の影響を受けない IoU oriented loss の提案 4. MonoDLE ↑ 予測結果を⼀部 ground truth で置換 KITTI val, AP40, Car, Moderate
  17. Mobility Technologies Co., Ltd. Revisiting Center Detection 1. coarse center

    は 2d box中⼼ではなく、3d boxを投影した中⼼に 2. 2d detection ブランチも特徴量の学習に必要なものとして保持 n SMOKEという⼿法では2d detection ブランチを不要として削除している Training Samples: 遠⽅物体の切り捨て IoU oriented loss for 3d size est. n IoU lossのように関係性を考慮した損失を⽤いたいが、localization errorが⼤きすぎる n size est.のみ関係性を考慮できるようにsize以外があっているものとして損失を取る 4. MonoDLE - proposals モデルの出⼒種類(CenterNet [4] より引⽤) hard (s=60) soft (c=60, T=1)
  18. Mobility Technologies Co., Ltd. Results: SOTA Ablation Study n p:

    projected center使うかどうか n I: iou oriented lossにするかどうか n s: 遠⽅物体捨てるかどうか(hard ver.) 4. MonoDLE - results KITTI test set, “Car”, IoU=0.7 2d detectionをmulti-task learningするかどうか distant sampleの切り捨て⽅の違い
  19. Mobility Technologies Co., Ltd. 22 n M3DSSD: Monocular 3D Single

    Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n pseudo-LiDAR (CVPRʼ19) w/depth est. 論⽂として有名 n D4LCN (CVPRʼ20) CVPRʼ21でSOTAとして⽐較 CVPR2021 x Monocular 3D Object Detection w/ depth est./supv. depth estimator 3d object detector w/ depth est./supv.
  20. Mobility Technologies Co., Ltd. Related work: pseudo-LiDAR 23 AVOD [7],

    F-POINTNET [8] ⼊⼒:LiDAR + Image KITTIセットに対する “car” カテゴリの結果 (AP_BEV/AP_3D) Mono: DORN [5], Stereo: PSMNet [6] LiDAR を 推論に使⽤ Depth Estimator 使⽤ “pseudo-LiDAR” representation の提案:LiDARベースの⼿法に持ち込む LiDAR 有無の違い: *この系列の論⽂はこれら⼆⼿法の使⽤が続く
  21. Mobility Technologies Co., Ltd. Depth-guided Dynamic-Depthwise-Dilated Local Convolutional Network (D4LCN)

    の提案 n 直接 depth map を使⽤する pseudo-LiDARベースの⼿法は depth map の予測精度に⼤きく依存 すると指摘 n 推定された depth map を⼊⼒として、receptive field の異なる複数の最適なフィルタを⽣成す るネットワークを学習 Related work: D4LCN 24
  22. Mobility Technologies Co., Ltd. “Depth-Conditioned Dynamic Message Propagation for Monocular

    3D Object Detection” Motivations: n 物体のdepth予測において、広範囲の関係性を考慮することが重要(D4LCNでは不⼗分) n depth map の予測精度に⼤きく依存(D4LCNでは不正確性を解決する情報がない) Proposals: n depth-awareな特徴を学習する Depth-Conditioned Dynamic Message Propagation (DDMP) n depth map の不正確さを解決するため Center Depth Encoding (CDE) 補助タスクの導⼊ 5. DDMP 25 全体的にD4LCN⼿法への意識が強め
  23. Mobility Technologies Co., Ltd. Depth-Conditioned Dynamic Message Propagation (DDMP) n

    “Dynamic Graph Message Passing Networks” (CVPRʼ20 oral) [9] n 特徴マップをグラフ構造で捉え、動的にサンプリング、フィルタ、アフィニティを⽣成 n 物体のコンテクスト情報を把捉 n depth 情報を元にコンテクストを把捉するよう拡張 Center Depth Encoding (CDE) 補助タスク n 3d center のみ予測(detectionブランチと同⼀GT) 5. DDMP - proposals 26 dynamic filter W dynamic affinity A DDMPモジュール Dynamic Message Propagation [9] *dynamic samplingは図中にない
  24. Mobility Technologies Co., Ltd. Result: SOTA *depth情報使ってる系⼿法、extraデータ結果に記載しないがち Ablation study: 5.

    DDMP - results 27 KITTI test set, “Car”, IoU=0.7 学習済み Depth Estimatorの違い monocular stereo CDEタスクの違い DDMPマルチスケール、CDEの効果
  25. Mobility Technologies Co., Ltd. “Categorical Depth Distribution Network for Monocular

    3D Object Detection” Motivation: n depth map 推定器を⽤いる⼿法は、depth map の予測精度に⼤きく依存 n また depth 推定が 3d detectionと分離しているため detectionタスクに最適化されていない n BEV特徴表現を⽤いて depth情報を内部的に学習する⼿法はfeature smearingの問題 Proposals: 3つの⼯夫を取り⼊れた CaDDN n 信頼度を考慮できる Categorical Depth Distribution n End-to-End で depth 推定と 3d detectionを学習 n Categorical depth distribution を⽤いた BEV 特徴表現 6. CaDDN oral
  26. Mobility Technologies Co., Ltd. Categorical Depth Distribution: n Focal loss

    [10] + separate fg/bg weights 背景に⽐べオブジェクト領域が⼩さいため 重みを別々に(fg: 3.25, bg: 0.25) n LID [11] (Linear Interval Discretization) *UD: uniform discretization 6. CaDDN - proposals oral Feature Transform: n Frustum Features: n Voxel Features: sampling w/ camera params 3D Object Detection: PointPillars [12]
  27. Mobility Technologies Co., Ltd. Result: SOTA Ablation study: Categorical Depth

    Distribution Ablation study: End-to-End Training 6. CaDDN - results oral n D: depth network 使⽤するかどうか n 𝐿$%&'( : depthのground truth使⽤するかどうか n 𝛼)* : 背景と物体で重みを分けるかどうか n LID: 離散化の⽅法(LIDじゃない場合はUD) n BTS [13], DORN [5]: 学習済みmonocular depth estimator n Sep., Joint: 別々に/end-to-endで学習 n : depth distribution を全て使⽤するか KITTI test set, “Car”, IoU=0.7
  28. Mobility Technologies Co., Ltd. 31 n M3DSSD: Monocular 3D Single

    Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection w/ depth est./supv.
  29. Mobility Technologies Co., Ltd. “GrooMeD-NMS: Grouped Mathematically Differentiable NMS for

    Monocular 3D Object Detection” 7. GrooMeD-NMS 32 Motivations: n Detectionタスクにおける Non-Maximal Suppression (NMS) は、学習に組み込まれず推論時の み⾏われるため、学習したスコアとNMSのための適切なスコアにはミスマッチがある n また、classification score と localization scoreのミスマッチ n 特に 3D detection タスクは、2D detection タスクに⽐べそのミスマッチの影響が⼤きい Proposals: 微分可能な、すなわちend-to-endで学習可能な⽅法でベストな3D boxを選択するGrooMeD-NMS n NMSを⾏列演算で定義 n 教師なしで検出結果をグルーピング、 マスキングする⽅法を提案
  30. Mobility Technologies Co., Ltd. 7. GrooMeD-NMS - proposals GrooMeD-NMS おおまかな流れ

    1. soft sort [14] 2. Grouping & Masking: 重なりが IoU 閾値を超え るものをグルーピング 3. soft pruning (linear) Loss Functions: NMS前後のロスを合計して学習 n NMS後は、class imbalance に強い AP-loss[15] を改良した image-wise AP-loss を使⽤ NMS as Matrix Operation n 各予測スコアをs、prune⾏列をPとして再帰 を近似してrescoringを⾏列演算で定義 n Grouping & Maskingを含めると Mをマスキング⾏列として のため、 と定義できる、とのこと(↓イメージ図の意味) soft sort[11] ⌊ ⌉ はclipping box overlapの⾏列O↑
  31. Mobility Technologies Co., Ltd. 7. GrooMeD-NMS - results 34 Results:

    SOTA Ablation Study: n C: Classical n S: Soft-NMS[15] n D: Distance-NMS[16] n G: GrooMeD-NMS KITTI test set, “Car”, IoU=0.7 Ablation Study: pruning function
  32. Mobility Technologies Co., Ltd. “Monocular 3D Object Detection: An Extrinsic

    Parameter Free Approach” Motivations: 既存タスクでは、カメラ姿勢の情報を考慮しておらず(固定されたカメラ座標系が 想定されており)、実応⽤のことを⼗分に考えられていない n 実環境ではカメラ姿勢の微⼩な揺れの存在は⼀般的 n 既存の⼿法はそのズレの影響を受けやすくなってしまっている Proposals: 外部パラメータフリーな MonoEF n 消失点と⽔平⽅向を検出し、外部パラメータを予測 n 予測した外部パラメータを⽤いた feature transfer 8. MonoEF 35 Style transfer ⼿法の学習を⽤いた変換
  33. Mobility Technologies Co., Ltd. Results: SOTA → unknown perturbation への有効性

    *model構造関連の ablation study は特になし 8. MonoEF - results Ablation Study: ⼈⼯的なperturbationを加えて評価 n perturbation: pitch, roll ~ N(0,1) n 既存⼿法は精度が激しく落ちる “For the rest of the detailed… etc., please refer to the supplementary.” 👀?
  34. Mobility Technologies Co., Ltd. 37 Summary KITTI test set, AP|R40,

    Car, IoU=0.7, sorted by Mod. in each block Method Easy Mod. Hard M3D-RPN ICCV’19 14.76 9.71 7.42 SMOKE CVPR’20 14.03 9.76 7.84 MonoPair CVPR’20 13.04 9.99 8.65 AM3D ICCV’19 w/ depth est. 16.50 10.74 9.52 D4LCN CVPR’20 w/ depth est. 16.65 11.72 9.51 Kinematic3D ECCV’20 4 frames 19.07 12.72 9.17 M3DSSD CVPR’21 17.51 11.46 8.98 MonoDLE CVPR’21 17.23 12.26 10.29 GrooMed-NMS CVPR’21 18.10 12.32 9.65 MonoEF CVPR’21 21.29 13.87 11.71 MonoFlex CVPR’21 19.94 13.89 12.07 (MonoRUn) CVPR’21 16.04 10.53 9.11 MonoRUn CVPR’21 w/ depth supv. 19.65 12.30 10.58 DDMP CVPR’21 w/ depth est. 19.71 12.78 9.80 CaDDN CVPR’21 w/ depth supv. 19.17 13.41 11.46
  35. Mobility Technologies Co., Ltd. 38 1. M3DSSD: https://github.com/mumianyuxin/M3DSSD (empty) 2.

    MonoFlex: https://github.com/zhangyp15/MonoFlex (WIP) 3. MonoRUn: https://github.com/tjiiv-cprg/MonoRUn MMDetection&MMDetection3D ベース 4. MonoDLE: https://github.com/xinzhuma/monodle 5. DDMP: https://github.com/fudan-zvg/DDMP (empty) 6. CaDDN: https://github.com/TRAILab/CaDDN OpenPDDetレポジトリベース 7. Groomed-NMS: https://github.com/abhi1kumar/groomed_nms Kinematic3D レポジトリベース 8. MonoEF: https://github.com/ZhouYunsong-SJTU/MonoEF (empty) Repositories
  36. Mobility Technologies Co., Ltd. 39 1. M3DSSD “M3DSSD: Monocular 3D

    Single Stage Object Detector.”, S. Luo et. al., CVPR2021 2. MonoFlex “Objects Are Different: Flexible Monocular 3D Object Detection.”, Y. Zhang et. al., CVPR2021 3. MonoRUn “MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation.”, H. Cheng et. al., CVPR2021 4. MonoDLE “Delving Into Localization Errors for Monocular 3D Object Detection.”, X. Ma et. al., CVPR2021 5. DDMP “Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection.”, L. Wang et. al., CVPR2021 6. CaDDN “Categorical Depth Distribution Network for Monocular 3D Object Detection.”, C. Reading et. al., CVPR2021 7. GrooMeD-NMS “GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection.”, A. Kumar et. al., CVPR2021 8. MonoEF “Monocular 3D Object Detection: An Extrinsic Parameter Free Approach.”, Y. Zhou et. al., CVPR2021 References: CVPRʼ21 papers
  37. Mobility Technologies Co., Ltd. 40 n pseudo-LiDAR “Pseudo-LiDAR from Visual

    Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving.”, Y. Wang et. al., CVPR2019 n D4LCN “Learning Depth-Guided Convolutions for Monocular 3D Object Detection.”, M. Ding et. al., CVPR2020 n M3D-RPN “M3D-RPN:monocular3D region proposal network for object detection.”, G. Brazil and X. Liu, ICCV2019 n SMOKE “Smoke: Single-stage monocular 3d object detection via keypoint estimation.”, Z. Liu et. al., CVPRW2020 n MonoPair “Monopair: Monocular 3d object detection using pairwise spatial relationships.”, Y. Chen et. al., CVPR2020 n AM3D “Accurate monocular 3D object detection via color-embedded 3D reconstruction for autonomous driving.”, X. Ma et. al., ICCV2019 n Kinematic3D “Kinematic 3d object detection in monocular video.”, G. Brazil et. al., ECCV2020 References: Comparison methods
  38. Mobility Technologies Co., Ltd. 41 [1] Non-local block: “Non-local Neural

    Networks”, X. Wang et. al., CVPR2018 [2] Asymmetric Non-local Block: “Asymmetric Non-local Neural Networks for Semantic Segmentation”, Z. Zhu et. al., ICCV2019 [3] “Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation”, H. Wang et. al., CVPR2019 [4] CenterNet: “Objects as Points”, X. Zhou et. al., arXiv2019 [5] DORN: “Deep Ordinal Regression Network for Monocular Depth Estimation.”, H. Fu et. al., CVPR2018 [6] PSMNet: “Pyramid stereo matching network.”, J. Chang et. al., CVPR2018 [7] AVOD: “Joint 3d proposal generation and object detection from view aggregation.”, J. Ku et. al., IROS2018 [8] F-POINTNET: “Frustum pointnets for 3d object detection from rgb-d data.”, C. R. Qi et. al., CVPR2018 [9] “Dynamic Graph Message Passing Networks”, L. Zhang et. al., CVPR2020 [10] Focal loss: “Focal Loss for Dense Object Detection”, T. Y. Lin et. al., ICCV2017 [11] “Center3D: Center-based Monocular 3D Object Detection with Joint Depth Understanding”, Y. Tang et. al., arXiv2020 [12] PointPillars: “PointPillars: Fast encoders for object detection from point clouds”, A. H. Lang et. al., CVPR2019 [13] BTS: “From big to small: Multi-scale local planar guidance for monocular depth estimation”, J. H. Lee et. al., arXiv2019 [14] “Softsort: A continuous relaxation for the argsort operator”, S. Prillo et. al., ICML2020 [15] AP-Loss: “AP-Loss for accurate one-stage object detection.”, K. Chen et. al., TPAMI2020 [16] “Soft-NMS‒improving object detection with one line of code.”, N. Bodla et. al., ICCV2017 [17] “Distance-normalized unified representation for monocular 3D object detection.”, X. Shi et. al., ECCV2020 References