Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文読み] Weakly Supervised 3D Object Detection vi...

[論文読み] Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance(ECCV2024)
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang

2DBoxのラベルのみを用いて3D検出器を学習させるVG-W3Dを提案.
画像とLiDAR点群で共通する情報を活用し,KITTI 3D Object Detectionにおいて,500フレームの3DBoxラベルを要する手法と同程度の精度を達成.

p2,6,7 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection
p4 Weakly Supervised 3D Object Detection from Lidar Point Cloud
p5 MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention Point Generator
p11 Emerging Properties in Self-Supervised Vision Transformers

Avatar for Spatial AI Network

Spatial AI Network

October 06, 2024
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance Huang+,

    ECCV2024 筑波大学/産総研 社会知能研究チーム 辻 栄翔 第1回 Spatial AI Network勉強会 2024.9.27
  2. 3Dラベルを全く使わない既存手法: FGR ➢点群を画像平面に投影したときの2DBoxラベル領域内の点が物体の候補 → Coarse 3D Segmentationと3D Bounding Box Estimationの2段階で精緻化

    ➢Coarse 3D Segmentation ✓前処理として,RANSACで地面の点を取り除く ✓候補の中心点の深度でセンサから近い順に,領域内の点を前景と背景に分離 ✓閾値で点同士の連結判定を行い,最大のクラスタを物体セグメントとする 6 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)
  3. 3Dラベルを全く使わない既存手法: FGR ➢3D Bounding Box Estimation ✓鳥瞰視点で各セグメントを四角く囲い,初期矩形とする ✓初期矩形の2辺を含む直角三角形を考慮.最もセグメント内の点を多く含むときの 2辺をkey edge,頂点をkey

    vertexとする ✓2つのkey edgeに近い点の数が最も多くなるように,key vertexと矩形の角度を調整 ✓上記をkey vertexの位置が安定するまで繰り返したあと,下図のようにフラスタム上 で高さ方向を考慮し,擬似ラベルとして出力 7 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)
  4. ① Feature-Level Visual Guidance ➢画像特徴から計算されるobjectnessは,LiDAR点群を画像平面に投影したときに 対応する領域から計算されるobjectnessと一致するはず ➢以降では,以下の変数を使用 ✓𝐹𝐼 ∈ 𝑹𝐻×𝑊×𝐶:

    画像から得られる特徴 ✓𝐹𝑃 ∈ 𝑹𝑃×𝐶: 点群から得られる特徴 ✓𝐹 ሖ 𝑃 = 𝑃𝑟𝑜𝑗(𝐹𝑃 ) ∈ 𝑹𝐻×𝑊×𝐶: 𝐹𝑃 を画像平面に投影したもの 9
  5. ① Feature-Level Visual Guidance ➢Classifier 𝑀 ሖ 𝑃 , 𝑀𝐼

    を 𝐹 ሖ 𝑃 , 𝐹𝐼 に適用し,objectnessのマップ 𝐶 ሖ 𝑃 , 𝐶𝐼 を計算 → 𝐶 ሖ 𝑃 , 𝐶𝐼 のKL divergenceを損失として学習 ➢𝐶 ሖ 𝑃 , 𝐶𝐼 の最適化にはそれぞれFocal lossを使う 12
  6. ② Output-Level Visual Guidance ➢𝐵𝐼 : 2DBox,𝐵𝑝𝑟𝑜𝑗 : 3DBoxを前ページの手順で投影したもの ➢

    ො 𝜎𝐼 = 𝜎𝐼 / σ 𝑖 𝑁 𝜎𝐼𝑖 : 予測2D box N個の信頼度スコアを正規化したもの ➢GIoU: [-1, 1]をとる,物体の重なり度合いの値 15 𝐴 𝐵 𝐴 ∩ 𝐵 𝐶 𝐼𝑜𝑈 = 𝐴 ∩ 𝐵 𝐴 ∪ 𝐵 𝐺𝐼𝑜𝑈 = 𝐼𝑜𝑈 − 𝐶 − (𝐴 ∪ 𝐵) 𝐶 boxの重なりがない(𝐴 ∪ 𝐵=0)ときは,IoU=0 → このときのペナルティまで考慮するのがGIoU
  7. ③ Training-Level Visual Guidance ➢t回目の洗練は,以下の3ステップによって実施 1) 擬似ラベル෢ 𝐵𝑡 を用いて3D検出器を学習し,①, ②の損失をそれぞれ計算

    2) t+1のための,擬似ラベル෣ 𝐵𝑡+1 と,対応する信頼度スコア𝜎𝑃 を計算 3) 不正確な擬似ラベルのフィルタリング処理 ➢不正確な擬似ラベルのフィルタリング処理 ✓𝐵𝐼 (2D box)と ෣ 𝐵𝑡+1 を画像に投影したboxを,IoUの閾値(𝛼0 )でマッチングさせ, かつ2Dと3Dの信頼度スコアの平均が閾値 (𝛼1 ) を超えた擬似ラベルが𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 ✓𝐵𝑢𝑛𝑚𝑎𝑡𝑐ℎ = 𝐵𝑡+1 \ B𝑜𝑣𝑒𝑟𝑙𝑎𝑝 に対してNMSを適用して冗長なboxを取り除き, 閾値 (𝛼2 ) を超えたものが𝐵𝑠𝑐𝑜𝑟𝑒 ✓෣ 𝐵𝑡+1 = 𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 + 𝐵𝑠𝑐𝑜𝑟𝑒 18
  8. 実験設定 ➢データセット ✓KITTI 3D object detection ✓Training : 3712枚,Validation: 3769枚

    に分割 ➢評価指標 ✓carクラスにおける,𝐴𝑃3𝐷 と𝐴𝑃𝐵𝐸𝑉 で評価 ➢実装の詳細 ✓② output-level guidanceでは,IoU > 0.5のものを利用 ✓③ training-level guidanceで使用するパラメタは以下の通り ❖𝛼0 = 0.5, 𝛼1 = 0.5, 𝛼2 = 0.95 21
  9. まとめ ➢2Dラベルのみを使用して3D検出器を学習するVG-W3Dフレームワークを提案 ➢Feature-, Output-, Training-level guidanceにより,画像から得られる情報を 3D検出器の学習に活用 ➢所感 ✓Feature-Level guidanceにおいて,特徴量の差を直接lossとするのでなく,

    objectnessを介すると上手くいくところが面白い ✓③のRoundを繰り返すタイミングなどが明記されておらず気になる ✓車のみを検証しているが,小さな物体に対する性能は? 30