Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Matching 2D Images in 3D: Metric Relative Pose ...

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

Avatar for Shigeki Kobayashi

Shigeki Kobayashi

August 03, 2024
Tweet

More Decks by Shigeki Kobayashi

Other Decks in Research

Transcript

  1. Matching 2D Images in 3D: Metric Relative Pose from Metric

    Correspondences GO株式会社 小林茂樹 第61回 コンピュータビジョン勉強会@関東 (後編)
  2. © GO Inc. 2 自己紹介 プロフィール写真 正方形にトリミングした写 真を「図形に合わせてトリ ミング」で円形にすると真 円になる

    略歴 • 会津大 (学士) → 筑波大 (修士) • ティアフォー → GO (現職) 好きなディズニーの乗り物 • 海底2万マイル • ヴェネツィアン・ゴンドラ 小林茂樹 @soreike1234 GO株式会社 AI技術開発部 AI研究開発第一グループ
  3. © GO Inc. 4 どんな論文? • Oral • Paper:CVPR_2024_open_access •

    動画:https://www.youtube.com/watch?v=39f1Gh9jJiU • 略称:MicKey 概要 • 画像間の3D対応点を絶対スケールで求める • 画像間の相対姿勢を絶対スケールで推定
  4. © GO Inc. 5 特徴点マッチング 特徴点をもとに画像の対応点を求める これができると画像間の相対姿勢がわかる 😄 大きく離れた画像間でも相対姿勢が分かる 😄

    照明などの変化に強い 🥲 相対姿勢のスケールが分からない https://huggingface.co/spaces/Realcat/image-matching-webuiを使用
  5. © GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

    2つのアプローチを提案・評価 アプローチ1:特徴点マッチングと深度推定を組み合わせる 😄 特徴点マッチングの良さを活かせる 🥲 特徴点はコーナーやエッジなどで多く検出されるが深度推定はこれらが苦手 🥲 深度の教師データが必要 [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.
  6. © GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

    2つのアプローチを提案・評価 アプローチ2:相対姿勢を直接推定 😄 画像間の重複が少ない状況においても有効 🥲 推定結果に対する信頼度推定が難しい [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.
  7. © GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) • 絶対スケールで3D特徴点を抽出

    ◦ 実際には特徴点 + 絶対スケールの深度マップ 絶対スケールで3D特徴点 (Mickey) 抽出 → 特徴点マッチング → 絶対スケールで相対姿勢推定 • 絶対スケールの相対姿勢推定に対して3D特徴点からのアプローチは初 😄 相対姿勢のスケールが分かる 😄 特徴点マッチングに適した深度推定ができる 😄 GTの深度が不要 (poseのみ必要) 😄 推定結果に対する信頼度推定ができる
  8. © GO Inc. 10 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  9. © GO Inc. 11 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  10. © GO Inc. 12 特徴点抽出 shared encoder + multi headの構成

    ▪ encoderは学習済みDINOv2 ▪ ここは学習しない ▪ headはresnet block + self attention ▪ headは1/14スケールの以下の情報を出力 ▪ 特徴点の位置 ▪ 各パッチ内の相対位置として表現 ▪ 深度マップ ▪ 信頼度マップ ▪ 特徴点の特徴ベクトル (descriptor) 14 14 14 14
  11. © GO Inc. 13 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  12. © GO Inc. 15 descriptorマッチング確率 特徴点の特徴ベクトルの類似度から算出するマッチング確率 ▪ 画像I、I’の特徴点の全ての組み合わせに対してcos類似度を算出して行列として保持 ▪ 画像Iの特徴点に対する画像I’の特徴点の確率的な類似度をsoftmaxで算出

    (横方向に softmaxをかける) ▪ 画像I’→画像Iに対しても同様のことを行う (縦方向にsoftmaxをかける) 画像Iの各特徴点の 特徴ベクトル 画像I’の各特徴点の特徴ベクトル cos類似度行列 softmax softmax
  13. © GO Inc. 16 マッチング確率 最終的なマッチング確率を上の (2) 式で求める ▪ 特徴点抽出と特徴ベクトルから得られた確率のかけ合わせ

    ▪ マッチング確率の高い対応点のみ後段の姿勢推定に入力する I→I’へのdescriptorマッチング確率 Iのキーポイント確率 I’のキーポイント確率 I’→Iへのdescriptorマッチング確率
  14. © GO Inc. 17 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2.

    特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する
  15. © GO Inc. 19 Soft Inlier Counting サンプリングした対応点群のスコアリングを行う 推定した姿勢変換の信頼度として使用 シグモイド関数を用いてインライア

    カウントの微分可能な近似を計算 ▪ βはヒューリスティックに5/τとする 閾値 誤差関数 シグモイド関数 スケーリングパラメータ
  16. © GO Inc. 21 loss 仮想的な対応点の再投影誤差をlossとする ▪ GTに必要なのは姿勢のみ (深度は必要ない) ▪

    Soft Inlier Countingのスコアが最も高い対応点群を用いて推定された姿勢を使用 投影関数 GTの姿勢変換 仮想対応点群 仮想対応点の再投影誤差
  17. © GO Inc. 23 実験条件 環境 ▪ GPU:V100x4 ▪ 学習時間:7日

    ▪ Optimizer:ADAM パラメータ ▪ 学習時 ▪ RANSAC反復回数:20 ▪ サンプリングする対応点:5 ▪ 全ての推定された姿勢に対してrefinement ▪ 推論時 ▪ RANSAC反復回数:100 ▪ サンプリングする対応点:3 ▪ ソフトインライアースコアが最良の姿勢のみrefinement
  18. © GO Inc. 26 Map-free Dataset (屋外) 屋外での画像間の絶対スケールの相対姿勢推定を評価 以下2つの手法に対して良い性能を達成 ▪

    特徴点マッチング + 深度推定 ▪ 相対姿勢回帰 (RPR) https://research.nianticlabs.com/mapfree-reloc-benchmark/dataset
  19. © GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの 相対姿勢推定を評価 学習データの画像に視野の重複が

    なくても性能差はなし [19] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.
  20. © GO Inc. 33 まとめ 絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ

    😄 屋内外のデータセットにおいて絶対スケールの相対姿勢推定でSOTAに匹敵 😄 MicKeyの深度推定が特徴点マッチングとの組み合わせに有効 🥲 推論速度は特徴点マッチングの中では遅め 🥲 カメラの内部パラメータが必要