Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GeoCLIP: Clip-Inspired Alignment between Locati...

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization」です。 本研究では、全世界のどこで撮影された画像からでもそのGPS座標を特定するタスクにおいて、画像の特徴とGPS座標の特徴を直接結びつけるCLIPに着想を得た検索ベースの手法(GeoCLIP)を提案しています。GeoCLIPによって、少ない訓練データ(全体の20%)でも競争力のある高い精度が得られ、さらに画像だけでなくテキスト情報を用いた地理位置情報の特定も可能になります。

SatAI.challenge

April 19, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. GeoCLIP: Clip-Inspired Alignment between Locations
 and Images for Effective Worldwide

    Geo-localization
 株式会社アークエッジ・スペース
 湯原弘大
 1 資料に出てくる図 引用を明記しない場合 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (https://arxiv.org/abs/2309.16020)”, NeurIPS 2023 より引用
  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • 結論(Conclusion)

  3. 湯原 弘大 株式会社アークエッジ・スペース 自己紹介 Twitter 4 経歴など サグリ株式会社 -> 株式会社アークエッジ・スペース

    農業リモートセンシングに興味あり、リモートセンシング関わり始めたのは ここ5年前から 現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。 資格など 最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中
  4. GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective 


    Worldwide Geo-localization 
 6 • 目的:
 ◦ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」 
 • 課題:
 ◦ 既存手法の限界:
 ▪ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的 
 ▪ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予 測場所も限定的。
 • 提案手法: GeoCLIP 
 ◦ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現 
 ◦ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習 
 ◦ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似てい るGPS座標を予測
 ◦ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用) 
 ◦ Image Encoder: CLIPのVision Transformerを利用 
 • 主な貢献:
 ◦ 初の画像からGPSを検索する方式での全世界ジオロケーション 
 ◦ 高性能なLocation Encoder 
 ◦ 少ない学習データでも高い性能 
 ◦ テキストによるジオロケーションも可能 
 

  5. 1. ジオロケーションとは? 画像撮影地のGPS座標を特定 (ナビ, 観光, etc.) 
 2. 課題: 全世界が対象だと探索範囲が膨大、目印となる建物や地形がない場所での特定が困難

    
 3. 既存アプローチ:
 a. 画像検索: 全世界の画像データベース構築が困難 
 b. 分類: 事前定義された区画に依存、区画境界/中心外で精度低下 
 4. 本研究: 既存の限界を克服する新しい仕組みを提案 
 研究の背景 (Introduction) 
 8
  6. • GeoCLIP: 画像の特徴とGPS座標の特徴を対応付ける 
 • 基本コンセプト:
 ◦ 問題を「画像からGPS座標を検索する」タスクとして定義 
 ▪

    クエリ: 入力画像
 ▪ 検索対象: GPS座標データベース 
 ◦ 画像とGPS座標を「類似度」を測れる共通の空間に変換し、 
 対応するペアの類似度を高めるように学習 
 手法について (Method Overview) 
 10
  7. • 主要コンポーネント: 
 ◦ Location Encoder (L(·)): GPS座標 → 高次元の特徴量ベクトル

    
 ◦ Image Encoder (V(·)): 画像 → (Location Encoderと同じ次元の)特徴量ベクトル 
 (CLIP ViTベース)
 • 予測プロセス:
 ◦ クエリ画像の特徴量を計算 
 ◦ GPS座標データベースの特徴量と比較 
 ◦ 最も類似度が高い特徴量に対応するGPS座標を予測結果とする 
 手法について (Method Overview) 
 11
  8. • Location Encoder (L(·)): 2D GPSを高次元特徴量へ 
 • 課題: 標準的な座標系の歪み、MLPが高周波情報を捉えにくい問題

    (Spectral Bias) 
 
 • 工夫点:
 ◦ EEP: 座標系の歪みを軽減 
 ◦ RFF: 高周波情報を捉えやすくする (Spectral Bias緩和) 
 ◦ 階層表現: 複数解像度の特徴量を統合し、粗いスケールから細かいスケールまで対応 
 手法について (Location Encoder) 
 12
  9. • Image Encoder (V(·)): 
 ◦ CLIP ViT[15] (凍結) +

    追加層のみ学習 
 ◦ 強力な特徴と計算効率を両立 
 • 学習戦略: 対比学習 (Contrastive Learning) 
 ◦ (画像 Vi ⇔ 対応GPS Li) の類似度を高める 
 ◦ (画像 Vi ⇔ 非対応GPS Lj, L̃) の類似度を低める 
 • データ拡張: 画像 (SimCLR風) + GPS (ノイズ付加で頑健性向上) 
 • Dynamic Queue: 多様な「非対応GPS」を効率的に利用 
 • 損失: InfoNCE (Eq. 4) 
 
 手法について (Image Encoder & Training) 
 13
  10. • データセット: 学習: MP-16 / 評価: Im2GPS3k, GWS15k, YFCC26k 


    ◦ 評価指標: Accuracy@K km (予測地点と正解地点の距離が K km 以内の割合: 1, 25, 200, 750, 2500 km) 
 
 実験 (Experiment Setup) 
 15 • 評価方法: 画像からGPSを検索 (比較対象のGPS座標データベース: 100k/500k点), Ten Crop評価 

  11. • Optimizerと学習率:
 ◦ 「学習にはAdam optimizerを使用し、学習率は全体で3e-5、Weight Decayは1e-6としました。」
 ◦ 「学習率スケジューラとしてStep Decayを用い、ガンマ0.87、ステップサイズ1 epochとしました。」


    • バッチサイズと学習時間:
 ◦ 「全データでの学習時のバッチサイズは512です。限定データ設定ではデータ量に応じて調整しました(例: 20%データで256)。」
 ◦ 「学習は収束するまで行い、通常10エポック程度でした。」
 • Location Encoderの構成:
 ◦ 「Location EncoderのMLPは、入力512次元、隠れ層4層(各1024次元、ReLU)、出力512次元です。」
 ◦ 「RFFの入力は2次元(座標)、出力は512次元としました。」
 ◦ 「階層数は3 (M=3) とし、σの範囲は2^0から2^8としました。」
 • Image Encoderの構成:
 ◦ 「Image EncoderにはOpenAIの事前学習済みCLIP ViT-L/14をバックボーンとして使用しました。」
 ◦ 「バックボーンは凍結し、768次元から512次元に変換する2つの線形層のみを学習対象としました。」
 • ノイズとキュー:
 ◦ 「学習時、バッチ内のGPS座標には標準偏差150のガウスノイズを加えました (ση=150)。」
 ◦ 「ダイナミックキュー内のGPS座標には、より大きな標準偏差1000のノイズを加えました (ση'=1000)。」
 ◦ 「ダイナミックキューのサイズは4096としました (|Q|=4096)。」
 • 温度パラメータ:
 ◦ 「Contrastive Lossで用いる温度パラメータτは0.07で初期化しました。」
 実験 (実装詳細) 
 16
  12. • 1. 少ないデータでの性能: 
 ◦ 学習データ削減 (5%まで) に対し性能低下は緩やか (特に分類手法比較で顕著) 


    ◦ データ効率が良い
 実験 (Data Efficiency & Ablations) 
 17 
 • 2. 要素技術の有効性検証 (Ablation Study): 
 ◦ Location Encoderの各要素 (EEP, RFF, DQ) が精度向上に貢献 
 ◦ 階層学習が単一階層より全てのスケールで優れる 

  13. • 1. テキストによるジオロケーション: 
 ◦ 画像とテキストの対応付け能力 (CLIP由来) により 
 追加学習なしでテキストから場所を推定可能

    
 
 • 2. Location Encoderの汎用性: 
 ◦ 画像分類タスクでもSOTA達成 
 (GPS特徴が地理的な意味情報を保持) 
 
 実験 (Qualitative & Additional Utilities) 
 18
  14. • Table 1 (a) Results on the Im2GPS3k [7] dataset

    
 ◦ これは、比較的古くから使われているベンチマークデータセット 
 「Im2GPS3k」での比較結果です。 
 • Table 1 (b) Results on the recent GWS15k [5] dataset 
 ◦ これは、より新しく挑戦的なデータセット「GWS15k」での比較結果です。 
 GeoCLIPの優位性が特に顕著に表れています。 
 実験 (Main Results) 
 20
  15. • 提案: 画像からGPS座標を検索する新ジオロケーション手法「GeoCLIP」 
 • 特徴: 高性能Location Encoder (EEP, RFF,

    階層), 画像とGPS特徴の直接的な対応付け 
 • 成果: SOTA性能、高いデータ効率、テキストによる位置特定、Location Encoderの汎用性 
 • 限界/今後: 事前計算コスト、他タスク応用 
 • 影響: 代替測位、自動運転等への貢献と倫理的配慮 
 まとめ 
 22