Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Matching 2D Images in 3D: Metric Relative Pose ...

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

Shigeki Kobayashi

August 03, 2024
Tweet

Other Decks in Research

Transcript

  1. Matching 2D Images in 3D: Metric Relative Pose from Metric

    Correspondences GO株式会社 小林茂樹 第61回 コンピュータビジョン勉強会@関東 (後編)
  2. © GO Inc. 2 自己紹介 プロフィール写真 正方形にトリミングした写 真を「図形に合わせてトリ ミング」で円形にすると真 円になる

    略歴 • 会津大 (学士) → 筑波大 (修士) • ティアフォー → GO (現職) 好きなディズニーの乗り物 • 海底2万マイル • ヴェネツィアン・ゴンドラ 小林茂樹 @soreike1234 GO株式会社 AI技術開発部 AI研究開発第一グループ
  3. © GO Inc. 4 どんな論文? • Oral • Paper:CVPR_2024_open_access •

    動画:https://www.youtube.com/watch?v=39f1Gh9jJiU • 略称:MicKey 概要 • 画像間の3D対応点を絶対スケールで求める • 画像間の相対姿勢を絶対スケールで推定
  4. © GO Inc. 5 特徴点マッチング 特徴点をもとに画像の対応点を求める これができると画像間の相対姿勢がわかる 😄 大きく離れた画像間でも相対姿勢が分かる 😄

    照明などの変化に強い 🥲 相対姿勢のスケールが分からない https://huggingface.co/spaces/Realcat/image-matching-webuiを使用
  5. © GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

    2つのアプローチを提案・評価 アプローチ1:特徴点マッチングと深度推定を組み合わせる 😄 特徴点マッチングの良さを活かせる 🥲 特徴点はコーナーやエッジなどで多く検出されるが深度推定はこれらが苦手 🥲 深度の教師データが必要 [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.
  6. © GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

    2つのアプローチを提案・評価 アプローチ2:相対姿勢を直接推定 😄 画像間の重複が少ない状況においても有効 🥲 推定結果に対する信頼度推定が難しい [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.
  7. © GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) • 絶対スケールで3D特徴点を抽出

    ◦ 実際には特徴点 + 絶対スケールの深度マップ 絶対スケールで3D特徴点 (Mickey) 抽出 → 特徴点マッチング → 絶対スケールで相対姿勢推定 • 絶対スケールの相対姿勢推定に対して3D特徴点からのアプローチは初 😄 相対姿勢のスケールが分かる 😄 特徴点マッチングに適した深度推定ができる 😄 GTの深度が不要 (poseのみ必要) 😄 推定結果に対する信頼度推定ができる
  8. © GO Inc. 10 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  9. © GO Inc. 11 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  10. © GO Inc. 12 特徴点抽出 shared encoder + multi headの構成

    ▪ encoderは学習済みDINOv2 ▪ ここは学習しない ▪ headはresnet block + self attention ▪ headは1/14スケールの以下の情報を出力 ▪ 特徴点の位置 ▪ 各パッチ内の相対位置として表現 ▪ 深度マップ ▪ 信頼度マップ ▪ 特徴点の特徴ベクトル (descriptor) 14 14 14 14
  11. © GO Inc. 13 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  12. © GO Inc. 15 descriptorマッチング確率 特徴点の特徴ベクトルの類似度から算出するマッチング確率 ▪ 画像I、I’の特徴点の全ての組み合わせに対してcos類似度を算出して行列として保持 ▪ 画像Iの特徴点に対する画像I’の特徴点の確率的な類似度をsoftmaxで算出

    (横方向に softmaxをかける) ▪ 画像I’→画像Iに対しても同様のことを行う (縦方向にsoftmaxをかける) 画像Iの各特徴点の 特徴ベクトル 画像I’の各特徴点の特徴ベクトル cos類似度行列 softmax softmax
  13. © GO Inc. 16 マッチング確率 最終的なマッチング確率を上の (2) 式で求める ▪ 特徴点抽出と特徴ベクトルから得られた確率のかけ合わせ

    ▪ マッチング確率の高い対応点のみ後段の姿勢推定に入力する I→I’へのdescriptorマッチング確率 Iのキーポイント確率 I’のキーポイント確率 I’→Iへのdescriptorマッチング確率
  14. © GO Inc. 17 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  15. © GO Inc. 19 Soft Inlier Counting サンプリングした対応点群のスコアリングを行う 推定した姿勢変換の信頼度として使用 シグモイド関数を用いてインライア

    カウントの微分可能な近似を計算 ▪ βはヒューリスティックに5/τとする 閾値 誤差関数 シグモイド関数 スケーリングパラメータ
  16. © GO Inc. 21 loss 仮想的な対応点の再投影誤差をlossとする ▪ GTに必要なのは姿勢のみ (深度は必要ない) ▪

    Soft Inlier Countingのスコアが最も高い対応点群を用いて推定された姿勢を使用 投影関数 GTの姿勢変換 仮想対応点群 仮想対応点の再投影誤差
  17. © GO Inc. 23 実験条件 環境 ▪ GPU:V100x4 ▪ 学習時間:7日

    ▪ Optimizer:ADAM パラメータ ▪ 学習時 ▪ RANSAC反復回数:20 ▪ サンプリングする対応点:5 ▪ 全ての推定された姿勢に対してrefinement ▪ 推論時 ▪ RANSAC反復回数:100 ▪ サンプリングする対応点:3 ▪ ソフトインライアースコアが最良の姿勢のみrefinement
  18. © GO Inc. 26 Map-free Dataset (屋外) 屋外での画像間の絶対スケールの相対姿勢推定を評価 以下2つの手法に対して良い性能を達成 ▪

    特徴点マッチング + 深度推定 ▪ 相対姿勢回帰 (RPR) https://research.nianticlabs.com/mapfree-reloc-benchmark/dataset
  19. © GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの 相対姿勢推定を評価 学習データの画像に視野の重複が

    なくても性能差はなし [19] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.
  20. © GO Inc. 33 まとめ 絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ

    😄 屋内外のデータセットにおいて絶対スケールの相対姿勢推定でSOTAに匹敵 😄 MicKeyの深度推定が特徴点マッチングとの組み合わせに有効 🥲 推論速度は特徴点マッチングの中では遅め 🥲 カメラの内部パラメータが必要