Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文読み] Weakly Supervised 3D Object Detection vi...

[論文読み] Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance(ECCV2024)
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang

2DBoxのラベルのみを用いて3D検出器を学習させるVG-W3Dを提案.
画像とLiDAR点群で共通する情報を活用し,KITTI 3D Object Detectionにおいて,500フレームの3DBoxラベルを要する手法と同程度の精度を達成.

p2,6,7 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection
p4 Weakly Supervised 3D Object Detection from Lidar Point Cloud
p5 MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention Point Generator
p11 Emerging Properties in Self-Supervised Vision Transformers

Spatial AI Network

October 06, 2024
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance Huang+,

    ECCV2024 筑波大学/産総研 社会知能研究チーム 辻 栄翔 第1回 Spatial AI Network勉強会 2024.9.27
  2. 3Dラベルを全く使わない既存手法: FGR ➢点群を画像平面に投影したときの2DBoxラベル領域内の点が物体の候補 → Coarse 3D Segmentationと3D Bounding Box Estimationの2段階で精緻化

    ➢Coarse 3D Segmentation ✓前処理として,RANSACで地面の点を取り除く ✓候補の中心点の深度でセンサから近い順に,領域内の点を前景と背景に分離 ✓閾値で点同士の連結判定を行い,最大のクラスタを物体セグメントとする 6 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)
  3. 3Dラベルを全く使わない既存手法: FGR ➢3D Bounding Box Estimation ✓鳥瞰視点で各セグメントを四角く囲い,初期矩形とする ✓初期矩形の2辺を含む直角三角形を考慮.最もセグメント内の点を多く含むときの 2辺をkey edge,頂点をkey

    vertexとする ✓2つのkey edgeに近い点の数が最も多くなるように,key vertexと矩形の角度を調整 ✓上記をkey vertexの位置が安定するまで繰り返したあと,下図のようにフラスタム上 で高さ方向を考慮し,擬似ラベルとして出力 7 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)
  4. ① Feature-Level Visual Guidance ➢画像特徴から計算されるobjectnessは,LiDAR点群を画像平面に投影したときに 対応する領域から計算されるobjectnessと一致するはず ➢以降では,以下の変数を使用 ✓𝐹𝐼 ∈ 𝑹𝐻×𝑊×𝐶:

    画像から得られる特徴 ✓𝐹𝑃 ∈ 𝑹𝑃×𝐶: 点群から得られる特徴 ✓𝐹 ሖ 𝑃 = 𝑃𝑟𝑜𝑗(𝐹𝑃 ) ∈ 𝑹𝐻×𝑊×𝐶: 𝐹𝑃 を画像平面に投影したもの 9
  5. ① Feature-Level Visual Guidance ➢Classifier 𝑀 ሖ 𝑃 , 𝑀𝐼

    を 𝐹 ሖ 𝑃 , 𝐹𝐼 に適用し,objectnessのマップ 𝐶 ሖ 𝑃 , 𝐶𝐼 を計算 → 𝐶 ሖ 𝑃 , 𝐶𝐼 のKL divergenceを損失として学習 ➢𝐶 ሖ 𝑃 , 𝐶𝐼 の最適化にはそれぞれFocal lossを使う 12
  6. ② Output-Level Visual Guidance ➢𝐵𝐼 : 2DBox,𝐵𝑝𝑟𝑜𝑗 : 3DBoxを前ページの手順で投影したもの ➢

    ො 𝜎𝐼 = 𝜎𝐼 / σ 𝑖 𝑁 𝜎𝐼𝑖 : 予測2D box N個の信頼度スコアを正規化したもの ➢GIoU: [-1, 1]をとる,物体の重なり度合いの値 15 𝐴 𝐵 𝐴 ∩ 𝐵 𝐶 𝐼𝑜𝑈 = 𝐴 ∩ 𝐵 𝐴 ∪ 𝐵 𝐺𝐼𝑜𝑈 = 𝐼𝑜𝑈 − 𝐶 − (𝐴 ∪ 𝐵) 𝐶 boxの重なりがない(𝐴 ∪ 𝐵=0)ときは,IoU=0 → このときのペナルティまで考慮するのがGIoU
  7. ③ Training-Level Visual Guidance ➢t回目の洗練は,以下の3ステップによって実施 1) 擬似ラベル෢ 𝐵𝑡 を用いて3D検出器を学習し,①, ②の損失をそれぞれ計算

    2) t+1のための,擬似ラベル෣ 𝐵𝑡+1 と,対応する信頼度スコア𝜎𝑃 を計算 3) 不正確な擬似ラベルのフィルタリング処理 ➢不正確な擬似ラベルのフィルタリング処理 ✓𝐵𝐼 (2D box)と ෣ 𝐵𝑡+1 を画像に投影したboxを,IoUの閾値(𝛼0 )でマッチングさせ, かつ2Dと3Dの信頼度スコアの平均が閾値 (𝛼1 ) を超えた擬似ラベルが𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 ✓𝐵𝑢𝑛𝑚𝑎𝑡𝑐ℎ = 𝐵𝑡+1 \ B𝑜𝑣𝑒𝑟𝑙𝑎𝑝 に対してNMSを適用して冗長なboxを取り除き, 閾値 (𝛼2 ) を超えたものが𝐵𝑠𝑐𝑜𝑟𝑒 ✓෣ 𝐵𝑡+1 = 𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 + 𝐵𝑠𝑐𝑜𝑟𝑒 18
  8. 実験設定 ➢データセット ✓KITTI 3D object detection ✓Training : 3712枚,Validation: 3769枚

    に分割 ➢評価指標 ✓carクラスにおける,𝐴𝑃3𝐷 と𝐴𝑃𝐵𝐸𝑉 で評価 ➢実装の詳細 ✓② output-level guidanceでは,IoU > 0.5のものを利用 ✓③ training-level guidanceで使用するパラメタは以下の通り ❖𝛼0 = 0.5, 𝛼1 = 0.5, 𝛼2 = 0.95 21
  9. まとめ ➢2Dラベルのみを使用して3D検出器を学習するVG-W3Dフレームワークを提案 ➢Feature-, Output-, Training-level guidanceにより,画像から得られる情報を 3D検出器の学習に活用 ➢所感 ✓Feature-Level guidanceにおいて,特徴量の差を直接lossとするのでなく,

    objectnessを介すると上手くいくところが面白い ✓③のRoundを繰り返すタイミングなどが明記されておらず気になる ✓車のみを検証しているが,小さな物体に対する性能は? 30