VRID: View-Invariant Representation through Dual-Axis Transformation for Cross-iew Pose Estimation

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
[CVPR2026 Highlight] 河内大輝 1 第28回 SatAI.challenge勉強会

目次 2 • 自己紹介スライド • 研究の1ページサマリ紹介 • 研究の背景（Introduction） • 手法について（Method）
• 実験（Experimet） • 結論（Conclusion）

3 著者紹介 This image was generated by ChatGPT

河内大輝業務/研究歴 - 大学・大学院：衛星画像対象AIモデルと説明可能性の研究など - ㈱DeNA：Computer VisionなどAI技術を使った野球チーム強化 - ㈱Loci
AI・代表取締役 - 未踏AD2025下期: 3DCV技術による街路樹管理システム開発好きな分野 - 3D Computer VisionとGeospatialな領域自己紹介 4 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi

5 論文サマリ This image was generated by ChatGPT

6 • 地上画像と衛星画像から地上カメラの位置と向きを推定するCross-view pose estimationの新手法 • 極座標変換による「横軸の補正」と、仮想的な縦軸へマッピングするAttention機構（CEPA）による「横軸の補正」を組み合わせることで、視点間で共通の特徴量記述子を定義しマッチング • 学習時に視点をまたいだ再構成誤差を加えることで、視点不変な特徴獲得を強化 • 複数のデータセットで位置・向き精度ともにSOTAを達成地上/衛星画像から地上カメラの位置・向きを推定するための視点不変な表現の獲得 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

7 Introduction: 背景 This image was generated by ChatGPT

• 現実空間の自動運転やロボティクスでは、Global Localization（地球上のどこにいるのかを推定）が重要 • 基本的にGNSSが使われることが多いが、オクルージョンやマルチパスなどの誤差要因が存在 • iPhoneのGNSSには以下のような~数十mの誤差が存在する* 背景：自己位置推定におけるGNSSの不確実性 8 *
“iPhoneのGPSはどれくらい正確か測定してみた（https://zenn.dev/moutend/articles/ee61b4ed8c90e2）”, zenn. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• Cross-view pose estimation(CVPE)タスク ◦ 入力：ジオリファレンスされた衛星画像、クエリとしての地上画像 ◦ 出力：地上画像（カメラ）の3自由度ポーズ（水平位置+方角） ▪ ここでは、残りの3自由度（z,
roll, pitch）は無視背景：Cross-view pose estimationタスク・既存手法と限界 9 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• 初期の研究：粗い方位の事前情報を所与としたCVPE ◦ 初期の研究では事前に粗い「方位」を与えて探索空間を限定し、ポーズを段階的に最適化する形 ◦ しかし、このような事前情報は不正確だったり、実用上は使えないことも多い ▪ 結果として局所最適に陥ったり、精度劣化を招いていた • 近年の研究：方位の事前情報なしのCVPE
◦ 最近の研究では、方位に関する事前情報なしに、360度の方位を探索する手法 ◦ 方位を網羅的に探索するため、画像から方位付きの特徴量を抽出してマッチングする ▪ 例：下図（Convolutional CVPE*）背景：Cross-view pose estimationタスク・既存手法と限界 10 *Xia et al. (2023), “Convolutional cross-view pose estimation”, TPAMI’23. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• 近年の研究：方位の事前情報なしのCVPE ◦ しかし、特徴抽出の際に下図のような地上画像と衛星画像の激しい視点ギャップを考慮しないと正確にマッチングすることは難しい背景：Cross-view pose estimationタスク・既存手法と限界 11 “VIRD:
View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• 視点ギャップを埋めるため、幾何変換（Geometry-based transformations）が複数用いられてきた ◦ ①極座標変換（Polar transformation） ▪ 衛星画像をある候補位置 x, y
を中心にした極座標に変換 ▪ ◯画像の横軸が地上画像と揃う（横軸＝回転角θ） ▪ ✗縦軸は揃わない（高さz vs 回転半径r） ◦ ②射影変換（Projective transformation） ▪ カメラパラメータをもとに両者を近づける ▪ ◯うまくやると画像の縦軸・横軸ともに揃う ▪ ✗カメラパラメータの正確な把握が必要 ▪ ✗建物など地上に垂直に立っているものが写っているとうまくいかない背景：Cross-view pose estimationタスク・既存手法と限界 12 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

13 Method: 提案手法 This image was generated by ChatGPT

1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 2. View reconstruction: 視点不変性な表現獲得のための再構成損失 3.
Matching & regression: 衛星と地上のマッチング（粗いポーズ推定）と回帰（詳細なポーズ推定）提案手法の全体像 14 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

特徴量記述子の作成手順 • ①特徴量抽出 • ②横軸を揃えるための極座標変換 • ③縦軸を揃えるためのcontext-enhanced positional attention（CEPA） •
④方位ごとの（縦軸に沿った）エンコーディング手法：1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 15 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

②横軸を揃えるための極座標変換 • 極座標変換では、衛星画像上の点を指定して、その点を中心とした周囲の見え方に変換する ◦ 全探索すると、衛星画像のピクセル数の分だけ、変換後の画像ができてしまう • 画像をグリット分割し、それぞれを中心とした極座標変換 ◦
そのグリットの中から正解位置を当てる問題にする • これにより画像の横軸が地面に沿った回転になって揃う手法：1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 16 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

③縦軸を揃えるためのcontext-enhanced positional attention（CEPA） • 極座標変換した衛星画像と、地上画像の縦軸を共通の（仮想的な）縦軸にマッピングすることで揃える • 上記3つの縦軸に対応する位置エンコーディングを定義し、それをもとに共通の縦軸に落とし込むためのアテンションレイヤ ◦
Positional Attention*と呼ばれる手法 • 地上画像に対しては、特徴量の情報を踏まえてアテンションを張るレイヤを更に追加（context enhancement） ◦ 衛星画像には写っていない壁などは無視するように手法：1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 17 *Luca et al. (2024), “Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning（https://arxiv.org/html/2410.01686v1）”. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• ④方位ごとの（縦軸に沿った）エンコーディング ◦ 共通の軸上にマッピングできたので、これを縦軸上に沿ってMLPに入れてエンコード ◦ 結果、横軸（方位軸）に沿って地上画像・衛星画像の特徴量記述子を算出 18 手法：1. Descriptor construction:
dual-axis transformationによる特徴量記述子の作成 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• 視点不変性な表現獲得のための再構成損失 ◦ 学習時に衛星・地上画像それぞれの特徴量記述子から、元の画像およびもう一方の画像を再構成するように学習させる ◦ これにより、視点不変な特徴をモデルが学習できるようにする 19 手法：2. View
reconstruction: 視点不変性な表現獲得のための再構成損失 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• マッチングと回帰によるポーズ（位置＋向き）の予測 ◦ マッチングモジュール ▪ 地上画像の特徴量記述子と、衛星画像の候補ポーズ（グリッド上の1つ）の特徴量記述子 ▪ これらのコサイン類似度をとってマッチング ◦ 回帰モジュール
▪ マッチングモジュールだけでは、グリッドレベルの解像度でのポーズでしかない ▪ 詳細なレベルでのポーズ推定をするために、残差　　を推定 • 最終的な損失関数は ◦ 20 手法：3. Matching & regression: 衛星と地上のマッチング（粗いポーズ推定）と回帰（詳細なポーズ推定） Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

21 Experiment: 実験結果 This image was generated by ChatGPT

• データセット ◦ KITTI* ▪ 地上画像：水平視野角が限られた前方画像 ▪ 衛星画像：0.20m/pixel、100x100m • 真ん中の40x40mの範囲に正解の場所
▪ 地域：ドイツ、都市・田舎・高速道など ◦ VIGOR** ▪ 地上画像：パノラマ画像 ▪ 衛星画像：70x70m • 中心の1/4の範囲に正解の範囲 ▪ 地域：NY、SF、シアトル、シカゴ • 評価指標 ◦ 位置・方位の誤差（平均・中央値） ◦ 推定ポーズのリコール（%） ▪ 1m,5m、1°,5°に収まったらTrue Positive • モデル ◦ BackboneはVGG16, EfficientNet-B0 実験設定 22 *Zhu et al. (2026), “VIGOR: Cross-view image geolocalization beyond one-to-one retrieval”, CVOR2021. より引用 *Geiger et al. (2026), “Vision meets robotics: The KITTI dataset”, IJRR2013. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• KITTIデータセットでの結果 ◦ SOTAを達成 ◦ 特に位置・方位の誤差の中央値両方で既存手法より改善していることがわかる精度検証 23 Park et
al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• VIGORデータセット ◦ 特にCross-Area（学習と推論で別地域）かつunaligned（方位の事前情報なし）の設定でSOTA 24 Park et al. (2026), “VIRD:
View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用精度検証

• 推論結果の可視化 25 定性検証 “VIRD: View-Invariant Representation through Dual-Axis Transformation
for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

• 再構成の可視化 ◦ CEPAのヒートマップを観ると、屋根・道路など共通して映っている箇所に強く反応できている ◦ 視点をまたいだ再構成結果から、お互いの視点からでは見えにくい部分の特徴も捉えられていそう ▪ 衛星画像における壁、地上画像における屋根 26 Park
et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用定性検証

• KITTIデータセットでの推論メモリと推論速度の比較 ◦ ※RTX A5000 24GB GPUで実施 ◦ 候補ポーズのサンプリング密度（グリッドの縦x横、角度）を上げると精度向上するがメモリと速度が悪化しトレードオフの関係にある
27 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用推論速度・メモリ使用量検証

• Dual-axis transformationの効果 ◦ 既存の極座標変換（単体）・射影変換に比べて、提案手法により改善 ◦ PAの時点で効いていて、CEにより更に少し改善 • 各損失項の効果 ◦
L_cross（別視点の画像を再構成させる損失）を追加することが効いている ▪ 視点不変な特徴を学習させることが精度に寄与している ◦ L_reg（回帰モジュールの損失）も効果はあるが、方位誤差の中央値は改善も、平均悪化 ▪ 方位の外れ値の補正ができていない 28 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用 Ablation Studies

29 Conclusion: 結論 This image was generated by ChatGPT

30 • 地上画像と衛星画像から地上カメラの位置と向きを推定するCross-view pose estimationの新手法 • 極座標変換による「横軸の補正」と、仮想的な縦軸へマッピングするAttention機構（CEPA）による「横軸の補正」を組み合わせることで、視点間で共通の特徴量記述子を定義しマッチング • 学習時に視点をまたいだ再構成誤差を加えることで、視点不変な特徴獲得を強化 • 複数のデータセットでSOTAを達成地上/衛星画像から地上カメラの位置・向きを推定するための視点不変な表現の獲得 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://www.youtube.com/watch?v=Bp997LLf0QY）”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation（https://arxiv.org/abs/2603.12918）”, CVPR2026. より引用

VRID: View-Invariant Representation through Dua...

VRID: View-Invariant Representation through Dual-Axis Transformation for Cross-iew Pose Estimation

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

目次 2 • 自己紹介スライド • 研究の1ページサマリ紹介 • 研究の背景（Introduction） • 手法について（Method）

3 著者紹介 This image was generated by ChatGPT

河内大輝業務/研究歴 - 大学・大学院：衛星画像対象AIモデルと説明可能性の研究など - ㈱DeNA：Computer VisionなどAI技術を使った野球チーム強化 - ㈱Loci

5 論文サマリ This image was generated by ChatGPT

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

7 Introduction: 背景 This image was generated by ChatGPT

• Cross-view pose estimation(CVPE)タスク ◦ 入力：ジオリファレンスされた衛星画像、クエリとしての地上画像 ◦ 出力：地上画像（カメラ）の3自由度ポーズ（水平位置+方角） ▪ ここでは、残りの3自由度（z,

• 視点ギャップを埋めるため、幾何変換（Geometry-based transformations）が複数用いられてきた ◦ ①極座標変換（Polar transformation） ▪ 衛星画像をある候補位置 x, y

13 Method: 提案手法 This image was generated by ChatGPT

1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 2. View reconstruction: 視点不変性な表現獲得のための再構成損失 3.

特徴量記述子の作成手順 • ①特徴量抽出 • ②横軸を揃えるための極座標変換 • ③縦軸を揃えるためのcontext-enhanced positional attention（CEPA） •

21 Experiment: 実験結果 This image was generated by ChatGPT

• データセット ◦ KITTI* ▪ 地上画像：水平視野角が限られた前方画像 ▪ 衛星画像：0.20m/pixel、100x100m • 真ん中の40x40mの範囲に正解の場所

• KITTIデータセットでの結果 ◦ SOTAを達成 ◦ 特に位置・方位の誤差の中央値両方で既存手法より改善していることがわかる精度検証 23 Park et

• VIGORデータセット ◦ 特にCross-Area（学習と推論で別地域）かつunaligned（方位の事前情報なし）の設定でSOTA 24 Park et al. (2026), “VIRD:

• 推論結果の可視化 25 定性検証 “VIRD: View-Invariant Representation through Dual-Axis Transformation

• KITTIデータセットでの推論メモリと推論速度の比較 ◦ ※RTX A5000 24GB GPUで実施 ◦ 候補ポーズのサンプリング密度（グリッドの縦x横、角度）を上げると精度向上するがメモリと速度が悪化しトレードオフの関係にある

• Dual-axis transformationの効果 ◦ 既存の極座標変換（単体）・射影変換に比べて、提案手法により改善 ◦ PAの時点で効いていて、CEにより更に少し改善 • 各損失項の効果 ◦

29 Conclusion: 結論 This image was generated by ChatGPT

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation