Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VRID: View-Invariant Representation through Dua...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

VRID: View-Invariant Representation through Dual-Axis Transformation for Cross-iew Pose Estimation

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

本研究では、地上画像と衛星画像から地上カメラ位置と向きを推定するCross-view pose estimationと呼ばれる問題の新手法を提案しています。従来の手法では地上画像と衛星画像の視点のギャップを適切な座標変換により埋める点に難しさがありました。極座標変換による横軸補正と、仮想的な縦軸へマッピングするAttention機構(CEPA)による縦軸補正を組み合わせることで、視点間で共通特徴量記述子を定義しマッチングすることでこの課題を克服しました。また、学習時に視点をまたいだ再構成誤差を加えることで、視点不変な特徴獲得を強化しています。複数データセットで位置・向き精度ともにSOTAを達成しました。

Avatar for SatAI.challenge

SatAI.challenge

June 13, 2026

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

    [CVPR2026 Highlight] 河内 大輝 1 第28回 SatAI.challenge勉強会
  2. 河内 大輝 業務/研究歴 - 大学・大学院:衛星画像対象AIモデルと説明可能性の研究など - ㈱DeNA:Computer VisionなどAI技術を使った野球チーム強化 - ㈱Loci

    AI・代表取締役 - 未踏AD2025下期: 3DCV技術による街路樹管理システム開発 好きな分野 - 3D Computer VisionとGeospatialな領域 自己紹介 4 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi
  3. VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

    6 • 地上画像と衛星画像から地上カメラの位置と向きを推定するCross-view pose estimationの新手法 • 極座標変換による「横軸の補正」と、仮想的な縦軸へマッピングするAttention機構(CEPA)による「横軸の補正」 を組み合わせることで、視点間で共通の特徴量記述子を定義しマッチング • 学習時に視点をまたいだ再構成誤差を加えることで、視点不変な特徴獲得を強化 • 複数のデータセットで位置・向き精度ともにSOTAを達成 地上/衛星画像から地上カメラの位置・向きを推定するための視点不変な表現の獲得 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  4. • 現実空間の自動運転やロボティクスでは、Global Localization(地球上のどこにいるのかを推定)が重要 • 基本的にGNSSが使われることが多いが、オクルージョンやマルチパスなどの誤差要因が存在 • iPhoneのGNSSには以下のような~数十mの誤差が存在する* 背景:自己位置推定におけるGNSSの不確実性 8 *

    “iPhoneのGPSはどれくらい正確か測定してみた (https://zenn.dev/moutend/articles/ee61b4ed8c90e2)”, zenn. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  5. • Cross-view pose estimation(CVPE)タスク ◦ 入力:ジオリファレンスされた衛星画像、クエリとしての地上画像 ◦ 出力:地上画像(カメラ)の3自由度ポーズ(水平位置+方角) ▪ ここでは、残りの3自由度(z,

    roll, pitch)は無視 背景:Cross-view pose estimationタスク・既存手法と限界 9 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  6. • 初期の研究:粗い方位の事前情報を所与としたCVPE ◦ 初期の研究では事前に粗い「方位」を与えて探索空間を限定し、ポーズを段階的に最適化する形 ◦ しかし、このような事前情報は不正確だったり、実用上は使えないことも多い ▪ 結果として局所最適に陥ったり、精度劣化を招いていた • 近年の研究:方位の事前情報なしのCVPE

    ◦ 最近の研究では、方位に関する事前情報なしに、360度の方位を探索する手法 ◦ 方位を網羅的に探索するため、画像から方位付きの特徴量を抽出してマッチングする ▪ 例:下図(Convolutional CVPE*) 背景:Cross-view pose estimationタスク・既存手法と限界 10 *Xia et al. (2023), “Convolutional cross-view pose estimation”, TPAMI’23. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  7. • 近年の研究:方位の事前情報なしのCVPE ◦ しかし、特徴抽出の際に下図のような地上画像と衛星画像の激しい視点ギャップを 考慮しないと正確にマッチングすることは難しい 背景:Cross-view pose estimationタスク・既存手法と限界 11 “VIRD:

    View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  8. • 視点ギャップを埋めるため、幾何変換(Geometry-based transformations)が複数用いられてきた ◦ ①極座標変換(Polar transformation) ▪ 衛星画像をある候補位置 x, y

    を中心にした極座標に変換 ▪ ◯画像の横軸が地上画像と揃う(横軸=回転角θ) ▪ ✗縦軸は揃わない(高さz vs 回転半径r) ◦ ②射影変換(Projective transformation) ▪ カメラパラメータをもとに両者を近づける ▪ ◯うまくやると画像の縦軸・横軸ともに揃う ▪ ✗カメラパラメータの正確な把握が必要 ▪ ✗建物など地上に垂直に立っているものが写っているとうまくいかない 背景:Cross-view pose estimationタスク・既存手法と限界 12 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  9. 1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 2. View reconstruction: 視点不変性な表現獲得のための再構成損失 3.

    Matching & regression: 衛星と地上のマッチング(粗いポーズ推定)と回帰(詳細なポーズ推定) 提案手法の全体像 14 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  10. 特徴量記述子の作成手順 • ①特徴量抽出 • ②横軸を揃えるための極座標変換 • ③縦軸を揃えるためのcontext-enhanced positional attention(CEPA) •

    ④方位ごとの(縦軸に沿った)エンコーディング 手法:1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 15 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  11. ②横軸を揃えるための極座標変換 • 極座標変換では、衛星画像上の点を指定して、その点を 中心とした周囲の見え方に変換する ◦ 全探索すると、衛星画像のピクセル数の分だけ、 変換後の画像ができてしまう • 画像をグリット分割し、それぞれを中心とした極座標変換 ◦

    そのグリットの中から正解位置を当てる問題にする • これにより画像の横軸が地面に沿った回転になって揃う 手法:1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 16 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  12. ③縦軸を揃えるためのcontext-enhanced positional attention(CEPA) • 極座標変換した衛星画像と、地上画像の縦軸を 共通の(仮想的な)縦軸にマッピングすることで揃える • 上記3つの縦軸に対応する位置エンコーディングを定義し、 それをもとに共通の縦軸に落とし込むためのアテンションレイヤ ◦

    Positional Attention*と呼ばれる手法 • 地上画像に対しては、特徴量の情報を踏まえてアテンションを 張るレイヤを更に追加(context enhancement) ◦ 衛星画像には写っていない壁などは無視するように 手法:1. Descriptor construction: dual-axis transformationによる特徴量記述子の作成 17 *Luca et al. (2024), “Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning(https://arxiv.org/html/2410.01686v1)”. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  13. • ④方位ごとの(縦軸に沿った)エンコーディング ◦ 共通の軸上にマッピングできたので、これを縦軸上に沿ってMLPに入れてエンコード ◦ 結果、横軸(方位軸)に沿って地上画像・衛星画像の特徴量記述子を算出 18 手法:1. Descriptor construction:

    dual-axis transformationによる特徴量記述子の作成 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  14. • 視点不変性な表現獲得のための再構成損失 ◦ 学習時に衛星・地上画像それぞれの特徴量記述子から、元の画像およびもう一方の画像を 再構成するように学習させる ◦ これにより、視点不変な特徴をモデルが学習できるようにする 19 手法:2. View

    reconstruction: 視点不変性な表現獲得のための再構成損失 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  15. • マッチングと回帰によるポーズ(位置+向き)の予測 ◦ マッチングモジュール ▪ 地上画像の特徴量記述子と、衛星画像の候補ポーズ(グリッド上の1つ)の特徴量記述子 ▪ これらのコサイン類似度をとってマッチング ◦ 回帰モジュール

    ▪ マッチングモジュールだけでは、グリッドレベルの解像度でのポーズでしかない ▪ 詳細なレベルでのポーズ推定をするために、残差   を推定 • 最終的な損失関数は ◦ 20 手法:3. Matching & regression: 衛星と地上のマッチング(粗いポーズ推定)と回帰(詳細なポーズ推定) Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  16. • データセット ◦ KITTI* ▪ 地上画像:水平視野角が限られた前方画像 ▪ 衛星画像:0.20m/pixel、100x100m • 真ん中の40x40mの範囲に正解の場所

    ▪ 地域:ドイツ、都市・田舎・高速道など ◦ VIGOR** ▪ 地上画像:パノラマ画像 ▪ 衛星画像:70x70m • 中心の1/4の範囲に正解の範囲 ▪ 地域:NY、SF、シアトル、シカゴ • 評価指標 ◦ 位置・方位の誤差(平均・中央値) ◦ 推定ポーズのリコール(%) ▪ 1m,5m、1°,5°に収まったらTrue Positive • モデル ◦ BackboneはVGG16, EfficientNet-B0 実験設定 22 *Zhu et al. (2026), “VIGOR: Cross-view image geolocalization beyond one-to-one retrieval”, CVOR2021. より引用 *Geiger et al. (2026), “Vision meets robotics: The KITTI dataset”, IJRR2013. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  17. • KITTIデータセットでの結果 ◦ SOTAを達成 ◦ 特に位置・方位の誤差の中央値両方で既存手法より改善していることがわかる 精度検証 23 Park et

    al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  18. • VIGORデータセット ◦ 特にCross-Area(学習と推論で別地域)かつunaligned(方位の事前情報なし)の設定でSOTA 24 Park et al. (2026), “VIRD:

    View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用 精度検証
  19. • 推論結果の可視化 25 定性検証 “VIRD: View-Invariant Representation through Dual-Axis Transformation

    for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用
  20. • KITTIデータセットでの推論メモリと推論速度の比較 ◦ ※RTX A5000 24GB GPUで実施 ◦ 候補ポーズのサンプリング密度(グリッドの縦x横、角度)を上げると精度向上するが メモリと速度が悪化しトレードオフの関係にある

    27 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用 推論速度・メモリ使用量検証
  21. • Dual-axis transformationの効果 ◦ 既存の極座標変換(単体)・射影変換に比べて、提案手法により改善 ◦ PAの時点で効いていて、CEにより更に少し改善 • 各損失項の効果 ◦

    L_cross(別視点の画像を再構成させる損失)を追加することが効いている ▪ 視点不変な特徴を学習させることが精度に寄与している ◦ L_reg(回帰モジュールの損失)も効果はあるが、方位誤差の中央値は改善も、平均悪化 ▪ 方位の外れ値の補正ができていない 28 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用 Ablation Studies
  22. VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

    30 • 地上画像と衛星画像から地上カメラの位置と向きを推定するCross-view pose estimationの新手法 • 極座標変換による「横軸の補正」と、仮想的な縦軸へマッピングするAttention機構(CEPA)による「横軸の補正」 を組み合わせることで、視点間で共通の特徴量記述子を定義しマッチング • 学習時に視点をまたいだ再構成誤差を加えることで、視点不変な特徴獲得を強化 • 複数のデータセットでSOTAを達成 地上/衛星画像から地上カメラの位置・向きを推定するための視点不変な表現の獲得 “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://www.youtube.com/watch?v=Bp997LLf0QY)”, Youtube. より引用 Park et al. (2026), “VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation(https://arxiv.org/abs/2603.12918)”, CVPR2026. より引用