Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VAGeo: View-specific Attention for Cross-View O...

VAGeo: View-specific Attention for Cross-View Object Geo-Localization

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

紹介する論文は、「VAGeo: View-specific Attention for Cross-View Object Geo-Localization」です。
本研究では、位置情報が分からない地上やドローン視点の画像に映る物体の位置を、衛星画像を手がかりに推定する手法を提案しています。この研究では、地上・ドローン視点の画像と衛星画像では見え方が大きく異なるため、AIモデルがその違いを理解し、画像のどこに注目すればよいかを適切に学習できるよう工夫しています。

SatAI.challenge

March 06, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. VAGeo: View-specific Attention for Cross-View Object Geo-Localization 青木 亮祐 /

    ぴっかりん(@ra0kley) 1 第8回 SatAI.challenge勉強会
  2. 青木 亮祐(ぴっかりん) 株式会社パスコ 研究開発センター 自己紹介 4 X(旧Twitter) GitHub 業務: -

    航空写真/衛星画像からの深層学習を用いた地物の分類や検出 - 深層学習を用いた二時期の衛星画像からの変化検出 Project PLATEAU ADVOCATE 2024 「地理空間情報課ラボ」スペシャルサポーター
  3. VAGeo: View-specific Attention for Cross-View Object Geo-Localization 7 衛星画像を用いた地上もしくはドローン視点画像の位置推定 •

    撮影位置が分からない地上もしくはドローン視点画像の位置を衛星画像を用いて推定 • 既存手法では、視点とスケールの不一致により、位置推定の精度が下がっていた • 本手法では、空間相関を考慮した位置エンコーディング(VSPE)とチャンネルおよび空間方向の アテンション(CSHA)を提案し、既存手法に比べ精度が向上 提案手法の概要 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用
  4. 背景: Cross-View Object Geo-Localizationとは? 12 • Cross-View Geo-Localizationは、おおまかな位置しか推定できないという課題がある • オブジェクト単位のより細かい位置推定を行うのが、Cross-View

    Object Geo-Localization → クリックポイント(赤丸)の位置を衛星画像上で推定(赤い矩形)することで、 より細かい位置推定を行う Cross-View Object Geo-Localizationの例 赤丸の位置を衛星画像のどこか推定(赤枠) https://openreview.net/pdf/0534cdb98221b22e534c164833bb4eb8ac257657.pdf より引用
  5. 手法: 概要 14 • 提案手法は、以下の2つのモジュールから構成 モジュール1: 地上視点、ドローン視点それぞれ固有の位置エンコーディングモジュール(VSPE) モジュール2: バックボーンによって抽出された特徴を、チャンネル、空間方向にそれぞれの アテンションを組み合わせて使用し、識別に焦点を当てるモジュール(CSHA)

    ⚫ 撮影位置を知りたいクエリ画像(地上もしくはドローン視点の画像)にVSPEおよびCSHAを適用し、 衛星画像内の目標オブジェクトを正確に特定 VSPE CSHA Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用
  6. 手法: モジュール1 VSPE(位置エンコーディング) 15 地上視点 • 地上視点のクエリ画像はパノラマ画像であり、それ以外に含まれている空や影などのコンテンツは 妨害する要素となる • これらの要素は、対象物体の特徴抽出に悪影響を及ぼす可能性がある

    → 画像全体から特徴を抽出しながら、モデルの注意を対象物体の特徴に向けるように設計 → 以下の数式のように、ラプラス分布に従い重みづけを行う 𝐏𝑘 : 位置エンコーディングされた結果 𝑝𝑘 : 地上視点画像での物体の位置(ポイント) 𝑃𝑖𝑥𝑒𝑙𝑘 (𝑖, 𝑗): 画像内のピクセル位置、𝑖行、𝑗列 ∙ 2 : ユークリッド距離 𝜎: 重みの減衰分布を制御するためのパラメータ 地上視点画像における 位置エンコーディング処理の例 たぶん、負号が入る Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用
  7. 手法: モジュール2 CSHA(ハイブリッド・アテンション) 18 概要 • CSHA(Channel-Spatial Hybrid Attention) •

    バックボーンによって抽出されたクエリ画像の特徴に対して、チャンネル方向と空間方向の アテンションを適用して、重要な情報を強調する Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 ハイブリッド・アテンションの処理の流れ
  8. 手法: モジュール2 CSHA(ハイブリッド・アテンション) 19 チャンネル方向のアテンション • バックボーンから出力されたクエリ画像の特徴マップのうち、 どのチャンネルの情報が重要かを重み付け 𝐅𝐪: バックボーンから出力されたクエリ画像の特徴マップ

    ∅: global average pooling 𝐖𝟏 , 𝐖𝟐 : 全結合層のパラメータ 𝑆𝑖𝑔: シグモイド関数 𝐗𝐜𝐡𝐚𝐧𝐧𝐞𝐥 : チャンネル方向のアテンションの重み Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 Squeeze-and-Excitation Networks(SENet)で提案されたチャンネル方向の アテンションを採用している
  9. 手法: モジュール2 CSHA(ハイブリッド・アテンション) 20 空間方向のアテンション • チャンネル方向のアテンションが適用されたクエリ画像の特徴マップに適用 • 特徴のうち、空間的にどこが重要かを重み付け 𝐅𝐜

    𝐪: チャンネル方向のアテンションが適用された特徴マップ 𝐏𝐚𝐯𝐠 : average pooling 𝐏𝐦𝐚𝐱 : maximum pooling 𝜎: シグモイド関数 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 Convolutional Block Attention Module(CBAM)で提案された空間方向の アテンションを採用している
  10. 実験: 使用したデータセット 22 • このタスクの標準的なデータセットであるCVOGL datasetを使用 • 5,836枚の衛星画像と5,279枚の地上視点画像、5,279枚のドローン視点画像から構成 • 対象の地物は、クエリ画像ではクリックポイント、衛星画像ではbboxでマークされている

    Y. Sun, Y. Ye, J. Kang, R. Fernandez-Beltran, S. Feng, X. Li, C. Luo, P. Zhang, and A. Plaza, “Cross-view object geo-localization in a local region with satellite imagery,” IEEE Transactions on Geoscience and Remote Sensing, vol. 61, pp. 1–16, 2023. より引用
  11. 実験: 結果 25 判読結果例 Zhongyang Li, Xin Yuan, Wei Liu

    and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 •: クリックポイント、□: 正解のbbox、□: 判読結果のbbox
  12. 実験: Ablation study 27 CSHA • 提案手法のモデルが判読時にどこを着目しているかをヒートマップで可視化 • ベースラインに比べ、提案手法の方が対象の地物を正確に着目している 上段はドローン視点画像、下段は地上視点画像

    (a) ベースライン、(b) VSPEのみ適用、(c) VSPE+CSHAを適用 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用
  13. 結論 29 • Cross-View Object Geo-Localizationの新しい手法であるVAGeoを提案 • 地上またはドローン視点固有の特性に合わせて調整され、スケールと視点の違いに 関連する課題に効果的に対処(VSPE) •

    クエリ画像に対して、チャンネル方向、空間方向双方にアテンションを適用することで モデルがどのチャンネルとどこに注目すれば良いかを自律的に学習(CSHA) • VSPEとCSHAを組み合わせることにより、大幅に位置精度が向上