Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

Matching 2D Images in 3D: Metric Relative Pose from Metric
Correspondences GO株式会社　小林茂樹第61回　コンピュータビジョン勉強会＠関東 (後編)

© GO Inc. 2 自己紹介プロフィール写真正方形にトリミングした写真を「図形に合わせてトリミング」で円形にすると真円になる
略歴 • 会津大 (学士) → 筑波大 (修士) • ティアフォー → GO (現職) 好きなディズニーの乗り物 • 海底2万マイル • ヴェネツィアン・ゴンドラ小林茂樹 @soreike1234 GO株式会社 AI技術開発部 AI研究開発第一グループ

© GO Inc. 4 どんな論文？ • Oral • Paper：CVPR_2024_open_access •
動画：https://www.youtube.com/watch?v=39f1Gh9jJiU • 略称：MicKey 概要 • 画像間の3D対応点を絶対スケールで求める • 画像間の相対姿勢を絶対スケールで推定

© GO Inc. 5 特徴点マッチング特徴点をもとに画像の対応点を求めるこれができると画像間の相対姿勢がわかる 😄 大きく離れた画像間でも相対姿勢が分かる 😄
照明などの変化に強い 🥲 相対姿勢のスケールが分からない https://huggingface.co/spaces/Realcat/image-matching-webuiを使用

© GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪
2つのアプローチを提案・評価アプローチ1：特徴点マッチングと深度推定を組み合わせる 😄 特徴点マッチングの良さを活かせる 🥲 特徴点はコーナーやエッジなどで多く検出されるが深度推定はこれらが苦手 🥲 深度の教師データが必要 [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

© GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪
2つのアプローチを提案・評価アプローチ2：相対姿勢を直接推定 😄 画像間の重複が少ない状況においても有効 🥲 推定結果に対する信頼度推定が難しい [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

© GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) • 絶対スケールで3D特徴点を抽出
◦ 実際には特徴点 + 絶対スケールの深度マップ絶対スケールで3D特徴点 (Mickey) 抽出 → 特徴点マッチング → 絶対スケールで相対姿勢推定 • 絶対スケールの相対姿勢推定に対して3D特徴点からのアプローチは初 😄 相対姿勢のスケールが分かる 😄 特徴点マッチングに適した深度推定ができる 😄 GTの深度が不要 (poseのみ必要) 😄 推定結果に対する信頼度推定ができる

© GO Inc. 10 パイプライン 1. 特徴点 (＋深度、信頼度) を抽出 2.
特徴点マッチング 3. 絶対スケール相対姿勢推定上記の処理をend-to-endで学習/推論する

© GO Inc. 12 特徴点抽出 shared encoder + multi headの構成
▪ encoderは学習済みDINOv2 ▪ ここは学習しない ▪ headはresnet block + self attention ▪ headは1/14スケールの以下の情報を出力 ▪ 特徴点の位置 ▪ 各パッチ内の相対位置として表現 ▪ 深度マップ ▪ 信頼度マップ ▪ 特徴点の特徴ベクトル (descriptor) 14 14 14 14

© GO Inc. 15 descriptorマッチング確率特徴点の特徴ベクトルの類似度から算出するマッチング確率 ▪ 画像I、I’の特徴点の全ての組み合わせに対してcos類似度を算出して行列として保持 ▪ 画像Iの特徴点に対する画像I’の特徴点の確率的な類似度をsoftmaxで算出
(横方向に softmaxをかける) ▪ 画像I’→画像Iに対しても同様のことを行う (縦方向にsoftmaxをかける) 画像Iの各特徴点の特徴ベクトル画像I’の各特徴点の特徴ベクトル cos類似度行列 softmax softmax

© GO Inc. 16 マッチング確率最終的なマッチング確率を上の (2) 式で求める ▪ 特徴点抽出と特徴ベクトルから得られた確率のかけ合わせ
▪ マッチング確率の高い対応点のみ後段の姿勢推定に入力する I→I’へのdescriptorマッチング確率 Iのキーポイント確率 I’のキーポイント確率 I’→Iへのdescriptorマッチング確率

© GO Inc. 18 Kabschソルバー 3D対応点の残差の二乗を最小化する姿勢を見つける ▪ kabschソルバーは微分可能姿勢変換 3D対応点
誤差関数マッチング確率を元にサンプリングされた3D対応点群

© GO Inc. 19 Soft Inlier Counting サンプリングした対応点群のスコアリングを行う推定した姿勢変換の信頼度として使用シグモイド関数を用いてインライア
カウントの微分可能な近似を計算 ▪ βはヒューリスティックに5/τとする閾値誤差関数シグモイド関数スケーリングパラメータ

© GO Inc. 20 微分可能なreﬁnement 姿勢変換とインライアを交互に更新していきreﬁnementする ▪ 指定した最大反復回数に達するかインライアの数が増えなくなるまで繰り返す kabschソルバー誤差関数
新しい姿勢変換新しい姿勢変換閾値新しいインライアインライア 3D対応点

© GO Inc. 21 loss 仮想的な対応点の再投影誤差をlossとする ▪ GTに必要なのは姿勢のみ (深度は必要ない) ▪
Soft Inlier Countingのスコアが最も高い対応点群を用いて推定された姿勢を使用投影関数 GTの姿勢変換仮想対応点群仮想対応点の再投影誤差

© GO Inc. 23 実験条件環境 ▪ GPU：V100x4 ▪ 学習時間：7日
▪ Optimizer：ADAM パラメータ ▪ 学習時 ▪ RANSAC反復回数：２0 ▪ サンプリングする対応点：5 ▪ 全ての推定された姿勢に対してreﬁnement ▪ 推論時 ▪ RANSAC反復回数：100 ▪ サンプリングする対応点：3 ▪ ソフトインライアースコアが最良の姿勢のみreﬁnement

© GO Inc. 26 Map-free Dataset (屋外) 屋外での画像間の絶対スケールの相対姿勢推定を評価以下2つの手法に対して良い性能を達成 ▪
特徴点マッチング + 深度推定 ▪ 相対姿勢回帰 (RPR) https://research.nianticlabs.com/mapfree-reloc-benchmark/dataset

© GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの相対姿勢推定を評価学習データの画像に視野の重複が
なくても性能差はなし [19] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.

© GO Inc. 33 まとめ絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ
😄 屋内外のデータセットにおいて絶対スケールの相対姿勢推定でSOTAに匹敵 😄 MicKeyの深度推定が特徴点マッチングとの組み合わせに有効 🥲　推論速度は特徴点マッチングの中では遅め 🥲　カメラの内部パラメータが必要

Matching 2D Images in 3D: Metric Relative Pose ...

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

Shigeki Kobayashi

More Decks by Shigeki Kobayashi

Other Decks in Research

Featured

Transcript

Matching 2D Images in 3D: Metric Relative Pose from Metric

© GO Inc. 2 自己紹介プロフィール写真正方形にトリミングした写真を「図形に合わせてトリミング」で円形にすると真円になる

© GO Inc. 3 01 概要・導入

© GO Inc. 4 どんな論文？ • Oral • Paper：CVPR_2024_open_access •

© GO Inc. 5 特徴点マッチング特徴点をもとに画像の対応点を求めるこれができると画像間の相対姿勢がわかる 😄 大きく離れた画像間でも相対姿勢が分かる 😄

© GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

© GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪

© GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) • 絶対スケールで3D特徴点を抽出

© GO Inc. 9 02 手法

© GO Inc. 10 パイプライン 1. 特徴点 (＋深度、信頼度) を抽出 2.

© GO Inc. 11 パイプライン 1. 特徴点 (＋深度、信頼度) を抽出 2.

© GO Inc. 12 特徴点抽出 shared encoder + multi headの構成

© GO Inc. 13 パイプライン 1. 特徴点 (＋深度、信頼度) を抽出 2.

© GO Inc. 14 キーポイント確率各特徴点 (キーポイント) が選択される確率画像内の全ての特徴点の信頼度に対してsoftmaxを適用して算出

© GO Inc. 16 マッチング確率最終的なマッチング確率を上の (2) 式で求める ▪ 特徴点抽出と特徴ベクトルから得られた確率のかけ合わせ

© GO Inc. 17 パイプライン 1. 特徴点 (＋深度、信頼度) を抽出 2.

© GO Inc. 18 Kabschソルバー 3D対応点の残差の二乗を最小化する姿勢を見つける ▪ kabschソルバーは微分可能姿勢変換 3D対応点

© GO Inc. 19 Soft Inlier Counting サンプリングした対応点群のスコアリングを行う推定した姿勢変換の信頼度として使用シグモイド関数を用いてインライア

© GO Inc. 20 微分可能なreﬁnement 姿勢変換とインライアを交互に更新していきreﬁnementする ▪ 指定した最大反復回数に達するかインライアの数が増えなくなるまで繰り返す kabschソルバー誤差関数

© GO Inc. 21 loss 仮想的な対応点の再投影誤差をlossとする ▪ GTに必要なのは姿勢のみ (深度は必要ない) ▪

© GO Inc. 22 03 実験

© GO Inc. 23 実験条件環境 ▪ GPU：V100x4 ▪ 学習時間：7日

© GO Inc. 24 定性結果 (屋外)

© GO Inc. 25 定性結果 (屋内)

© GO Inc. 26 Map-free Dataset (屋外) 屋外での画像間の絶対スケールの相対姿勢推定を評価以下2つの手法に対して良い性能を達成 ▪

© GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの相対姿勢推定を評価学習データの画像に視野の重複が

© GO Inc. 28 MicKeyの理解① 視野の重複が少ない状況でも良好な性能を発揮

© GO Inc. 29 MicKeyの理解② 特徴点マッチング + 深度推定の構成においてMicKeyの深度推定がより良い性能を達成 ▪ 特徴点マッチングに適した深度推定が出来ていると主張

© GO Inc. 30 MicKeyの理解③ 古典的なPose Solverに対して提案の Pose Solverの方が良い性能を達成

© GO Inc. 31 Limitation MicKeyは細かい姿勢推定が苦手 ▪ DINOv2の出力の特徴マップが粗いから

© GO Inc. 32 01 まとめ

© GO Inc. 33 まとめ絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ