Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] Open3DIS: Open-Vocabulary 3D Ins...

[Journal club] Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance Phuc

    D.A. Nguyen1, Tuan Duc Ngo1,4, Evangelos Kalogerakis4, Chuang Gan2,4, Anh Tran1, Cuong Pham1,3, Khoi Nguyen1 1Vin AI Research, 2MIT-IBM Watson AI Lab, 3Posts & Telecommunications Inst. Of Tech., 4UMASS Amherst Phuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tran, Cuong Pham, and Khoi Nguyen. Open3dis: Open-vocabulary 3d instance segmentation with 2d mask guidance. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2024.6 慶應義塾⼤学 杉浦孔明研究室 鈴⽊駿太郎 CVPR 2024
  2. 背景(1/3):OV-3DISにおける2D基盤モデルの活⽤は困難 - 2 - n Open-Vocabulary 3D Instance Segmentation (OV-3DIS)タスクにおける課題

    L ⼩物体や幾何学的に曖昧な物体はsegment困難 L 2D基盤モデル利⽤では3D → 2D投影で特徴量が ずれてしまう n 既存OV-3DIS⼿法 ① 3DISモデルで点群をsegment → 2Dに投影して 特徴量埋め込み n OpenMask3D [Takmaz+, NeurIPS23] n OpenIns3D [Huang+, 23] ② 多視点画像で特徴量埋め込み → 3D点群に投影 n OVIR-3D [Lu+, CoRL23] n SAM3D [Yang+, 23] L OpenMask3D [Takmaz+, NeurIPS23] ではタオルの検出に失敗
  3. 背景(2/3):既存OV-3DIS⼿法① - 3 - ① 3DISモデルで点群をsegment → 2D に投影、特徴量埋め込み n

    幾何学的特徴をFully-Supervisedな モデル(Mask3D [Schult+, ICRA23]) で抽出 n 各Instance Segmentを2D投影後CLIP [Radford+, ICML21]特徴量埋め込み OpenMask3D [Takmaz+, NeurIPS23] J ⾼精度な3D Instance Segment L Pretrained に無い⼩物体や幾何学的に曖昧な形状はsegment困難
  4. 背景(3/3):既存OV-3DIS⼿法② - 4 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J

    ⼩物体をSegment可能 L 2D→3D投影で特徴量がずれてしまう n 2D Open-Vocabulary Instance Segmentation Model(Detic [Zhou+, ECCV22])でSegment取得 n 特徴量を既知のカメラ⾏列により 3D点群へ投影 OVIR3D [Lu+, CoRL23]
  5. 背景(3/3):既存OV-3DIS⼿法② - 5 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J

    ⼩物体をSegment可能 L 2D→3D投影で特徴量がずれてしまう n 2D Open-Vocabulary Instance Segmentation Model(Detic [Zhou+, ECCV22])でSegment取得 n 特徴量を既知のカメラ⾏列により 3D点群へ投影 OVIR3D [Lu+, CoRL23] → OV-3DISの2⼿法を融合すれば、幾何学的に曖昧な物体 を⾼精度な3D Instance Segmentationで扱えるのでは?
  6. 関連研究 - 6 - ⼿法 概要 ISBNet [Ngo+, CVPR23] Dynamic

    Convolutionで点群クラスタ毎にカーネルを⽤意 Mask3D [Schult+, ICRA23] Transformerによる3D Instance Segmentation OVIR3D [Lu+, CoRL23] 2D Instance Segmentationをカメラ⾏列により3D投影 OpenMask3D [Takmaz+, NeurIPS23] 事前学習3DISモデルの出⼒マスクにCLIP特徴量埋め込み ISBNet [Ngo+, CVPR23] Mask3D [Schult+, ICRA23]
  7. 提案⼿法:Superpoints (補⾜) - 10 - Superpoints [Felzenszwalb+, ICJV04] 古典的物体検出アルゴリズム 1.

    全画素をノードとし、隣接画素間にエッジを 張ったグラフを作成 2. 輝度差をエッジ重みとし、動的な閾値を 超えないように最⼩全域⽊でクラスタリング → 物体の輪郭を正確に表現
  8. 提案⼿法:2D-Guided-3D Instance Proposal Module - 11 - 2D Instance Segmenter

    2D基盤モデル(Grounded-SAM [Ren+, ICCV23])により ⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointsと2D Instance Maskの統合 2. 3D Instance Maskの⽣成
  9. 提案⼿法:2D-Guided-3D Instance Proposal Module - 12 - 2D Instance Segmenter

    2D基盤モデル(Grounded-SAM [Ren+, ICCV23])により ⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointsと2D Instance Maskの統合 2. 3D Instance Maskの⽣成 1. Superpointsをカメラ⾏列で2D投影 2. Superpointsの内、2D Instance MaskとのIoUが閾値(τ!"# ) 以上のものを選別 3. 事前学習3DISモデルで 点群特徴量を取得(F$% ∈ ℝ&×%!") 4. 選別Superpointsに対しf, f′ ∈ F$% 同⼠のCosSimが閾値( τ(!) ) 以上のものを結合
  10. 提案⼿法:2D-Guided-3D Instance Proposal Module - 13 - 2D Instance Segmenter

    2D基盤モデル(Grounded-SAM [Ren+, ICCV23])により ⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointと2D Instance Maskの統合 2. 3D Instance Maskの⽣成 n フレーム間のInstance Maskを 2D基盤モデル由来の 点群特徴量によるCosSimで 凝集型クラスタリング n 時間軸で階層的に統合
  11. 提案⼿法:3D Instance Segmenter - 14 - 3D Instance Segmenter n

    既存3DISモデルによりInstance Mask⽣成(予測ラベルは破棄) n ISBNet [Ngo+, CVPR23], Mask3D [Schult+, ICRA23]を使⽤ 2D-Guided-3D Instance ProposalによりInstance Maskを拡張 Non-Maximum Suppression(NMS)により重複Instance Maskは除外 (Instance同⼠のIoUが閾値以上の場合,スコアの低いInstanceを除外)
  12. 提案⼿法:Pointwise Feature Extraction - 15 - Pointwise Feature Extraction n

    各Instance Maskに関して写っている⾯積の多い上位λ枚の視点を取得 n SAM [Kirillov+, ICCV23]によりSegmentし、CLIP特徴量を取得
  13. 実験設定:3種類の3Dデータセットを⽤いて評価 - 16 - n データセット n ScanNet200 [Rozenberszki+, ECCV22]

    n Replica [Straub+, 19] n S3DIS [Armeni+, 17] n 評価指標 n AP (IoU 25%, 50%) n mAP (IoU 50~95%) n Backbone n 3D Segmenter ISBNet [Ngo+, CVPR23], Mask3D [Schult+, ICRA] n 2D Segmenter Grounded-SAM [Ren+, ICCV23] n CLIP特徴量 ViT-L/14 [Dosovitsky+, 20] ScanNet200 [Rozenberszki+, ECCV22] Replica [Straub+, 19]
  14. 定量的結果:OV-3DISにおいて既存⼿法を上回る - 17 - + 3.9ポイント + 8.3ポイント J ScanNet200において既存のOV-3DISモデルを全ての評価指標で上回る

    J ⼩物体においてはFully-Supervisedな3DISモデルをも上回る ScanNet200 [Rozenberszki+, ECCV22]における3DIS
  15. 追試およびエラー分析:物体間の位置関係は扱えない - 19 - “pulled chair” “desk beneath the TV”

    L 位置関係を考慮したInstance Segmentationに失敗 L 2D Segmenter,3D Segmenter共に物体間の相互関係は扱っていない 正解 正解
  16. まとめ - 20 - n 背景 n 既存Open-Vocabulary 3D Instance

    Segmentationは ⼩物体や幾何学的に曖昧な物体への対応× n 2D基盤モデルの3D流⽤は特徴量投影がずれてしまう n 提案⼿法:Open-3DIS n 既存3DISモデルによる⾼精度な3D Instance Mask⽣成 を2D基盤モデルで拡張 n ⼩物体へのSegmentationが可能 n 結果 n OV-3DISタスクにおいて全てのデータセットでSOTA n ⼩物体に対するSegmentationはFully-Supervised モデルをも凌駕
  17. 所感 - 21 - n Strength n ⼩物体のSegmentationではFully-Supervisedな⼿法をも上回る n マスク⽣成及び特徴量埋め込みの2段階で2D基盤モデルを利⽤している

    n Weakness n ⼤物体へのSegmentationは3DISモデル依存である n 実験環境の記載がない n Open-Vocabularyと謳っているのに使⽤したText Encoderの記載がない n Comment n 2D Instance Segmentationの3D投影によるずれをSuperpointsで防いでいる点が ⾯⽩かった n 3D投影はDepth予測モデルを使⽤したアプローチも可能?
  18. APPENDIX:Pointwise Feature Extraction - 22 - Pointwise Feature Extraction n

    各Instance Maskに関して写っている⾯積の多い上位λ枚の視点を取得 n SAM [Kirillov+, ICCV23]によりSegmentし、CLIP特徴量を取得 CLIP特徴量 𝐅𝐂𝐋𝐈𝐏 = 𝐍𝐕(∑𝒌 (∑𝒗 𝐯𝛌 ∗ 𝐟𝛌,𝒌 𝐂𝐋𝐈𝐏 ∗ 𝐦𝒌 𝟑𝐃) ∈ ℝ𝐍×𝐃𝐂𝐋𝐈𝐏 f5,6 789: ∈ ℝ%'()*:k番⽬インスタンスの視点λ枚⽬のCLIP特徴量 v5 ∈ {0,1}&:視点λ枚⽬の可視領域マスク(Nは点群数) m6 $% ∈ {0,1}&:k番⽬インスタンスのマスク(Nは点群数)
  19. APPENDIX:定量的結果 - 23 - 𝐴𝑃;<=>? :ScanNet20に含まれていないクラス 𝐴𝑃@AB> :ScanNet20と似たクラス J いずれの評価指標でも既存OV-3DISモデルを上回る

    Replicaとクラス分類の近いScanNet200はBackbone 3D Segmenterで既に学習されてしまっている J 完全なZero-ShotであるOurs(only 2D)でも 既存OV-3DISモデルを上回る ScanNet200 [Rozenberszki+, ECCV22]での3DIS Replica [Straub+, 19]での3DIS
  20. APPENDIX: Ablation Study(1/2) - 25 - 2D Instance Maskの3D投影⼿法 2D

    Instance Maskの統合⼿法 J点群特徴によるSuperpointsの統合が有効 J時系列⽅向の階層的な 凝集型クラスタリングが有効
  21. APPENDIX: Ablation Study(2/2) - 26 - 3D Instance Segmenter 2D

    Instance Segmenter J Grounded-SAM [Ren+, ICCV23]が 有効な2Dセグメンテーションモデル
  22. APPENDIX:データセットの詳細 - 27 - n ScanNet200[Rozenberszki+, ECCV22] n 1513シーン,約250万枚の多視点画像から構成 n

    ScaneNet[Dai+, CVPR17]のクラス数を200クラスに拡張したデータセット n 200クラスは出現頻度に応じてHead, Common, Tailに分類される n Replica[Straub+, 19] n HDR形式の3D屋内環境18シーン,88クラス n S3DIS [Armeni+, 17] n Stanfordの3D屋内環境,6区画271部屋,13クラス
  23. APPENDIX:評価指標 - 28 - n AP(Average Precision) n 予測Instance数に応じたPrecision-Recall曲線の⾯積 ;

    C D 𝑝 𝑟 𝑑𝑟 (p: Precison, r: Recall) n mAP n クラスベルごとのAPの平均 n Intersection over Union(IoU) n 正解Instance領域および予測Instance領域間の重複度 n A:正解領域,B:予測領域 𝐼𝑜𝑈 = 𝐴 ∩ 𝐵 𝐴 ∪ 𝐵