Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CSP: Self-Supervised Contrastive Spatial Pre-Tr...

CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は「CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations」です。地球上の位置情報(緯度、経度)と、対応する画像の埋め込み特徴ペアを学習する自己教師あり事前学習を提案しています。これにより、テストデータ推論時に画像特徴と位置情報をマルチモーダルとして入力可能となり、推論の精度向上が期待できます。また、大量のラベルなしデータを学習することでラベル付きデータが少量の場合でも高精度な推論を可能にします。実験では、従来手法としてシングルモダリティ(画像のみ入力)やラベルなしデータを用いない場合と比較して最大34%の精度向上を実現しました。

SatAI.challenge

April 19, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations
 山口大学
 中田和真


    1 SatAI.challenge 勉強会(4/12(土)13:50-14:15) 
 みんなで作るメタサーベイ:衛生データを活用したマルチモーダルAI 
 この資料に出てくる図は引用を明記しない場合は G. Mai et al. (2023), “CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations”, ICML 2023 より引用
  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • 結論(Conclusion)

  3. 自己紹介 
 4 中田 和真 所属:山口大学 情報認識工学研究室 D3 研究テーマ:機械学習による超音波画像を用いた肝硬変の検出 その他活動: •

    2024年度 山口大学 SPRINGスカラシップ研究学生 • 第23回 IEEE広島支部学生シンポジウム 運営 • cvpaper.challenge コラボ AI論文解説
  4. CSP: Self-Supervised Contrastive Spatial Pre-Training 
 for Geospatial-Visual Representations 


    6 • 画像↔位置情報のペアを事前学習するため、自己教師で学習可能 
 • 推論時に画像だけでなく、画像の位置情報(緯度、経度)も追加情報として入力可能になる 
 ◦ 従来:画像 → クラス予測。提案手法:画像+位置情報 → クラス予測 
 ◦ 画像特徴が似たクラスの分類で精度向上が期待できる 
 • 生物種の分類(iNet2018)とリモセン画像分類(fMoW)にCSPを適用 
 ◦ 最大 10-34%の精度向上を実現 
 地球上の位置情報と、対応する画像の特徴を学習する自己教師あり事前学習を提案 
 画像特徴が似ているが、生息する位置が異なるクラスの例 

  5. 1. 位置情報付き画像を用いた教師なし学習 / 自己教師あり学習(Tile2Vec, Geo-SSL, SeCo, GeoKR) 
 ◦ 位置情報が事前学習時の

    positive / negative ペア作成のために、補助的に使用する 
 → ファインチューニングやテストデータ推論時に位置情報も 
 モデルへの入力とすることで、分類性能向上が見込める 
 
 2. 位置表現学習
 ◦ 画像と位置情報(緯度・経度)それぞれからクラスを学習・予測する 
 → 完全な教師あり学習が主なケースであり、 
 大量のラベルなしデータ活用による分類性能向上が見込める 
 背景:従来手法 
 8 1. のイメージ
 2. のイメージ

  6. • 本手法のねらい
 ◦ 2つのエンコーダーを使用し、画像・位置情報を特徴空間に埋め込むことでマルチモーダルを実現 
 ◦ 大量の教師なし画像を用いた(ペア: 画像↔位置情報)事前学習で推論時の分類性能を向上 
 •

    ①エンコーダーの事前学習 → ②エンコーダーの教師ありFT → ③テストデータ推論 の流れで構成 
 手法:全体像 
 10 ロケーションエンコーダー e() の事前学習 
 画像エンコーダー f() の事前学習
 ロケーションエンコーダー e() のFT 
 画像エンコーダー f() のFT 
 テストデータに対する推論
 F: 学習済みニューラルネット 
 W: プロジェクションレイヤー 

  7. • エンコーダー事前学習の方針は、特徴空間上で似ているペアを近づけて、似ていないペアを遠ざける 
 • 事前学習で使用するロスは2つを検討 
 ◦ ① noise contrastive

    estimation (NCE) 
 
 
 
 ▪ Posペア(真の、画像↔位置情報ペア)に対するコサイン類似度を最大化 
 ▪ Negペア(偽の、画像↔位置情報ペア)に対するコサイン類似度を最小化 
 ▪ 単純にPosペアを近づけ、Negペアを遠ざける 
 
 ◦ ② multi-class classification (MC) 
 
 
 
 
 ▪ 分子: Posペアのコサイン類似度 
 ▪ 分母: すべてのペア(Pos, Neg)の類似度を合計 
 ▪ 式全体でPosペアの類似度を分子にもつSoftmax関数の形となる 
 • 全ペアの分類問題とし、正解ペア(Posペア)に対しての予測を最大化する 
 手法:①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP) 
 11
  8. • 工夫点:
 画像エンコーダー f() はロケーションエンコーダー e() の100倍のパラメーター数のため、 
 両方を同時にスクラッチから学習すると、e() に対して過学習、

    f() に対して過少学習となる 
 → 学習済み公開モデルを F() に使用 or ImageNetなどで事前に f() を学習 
 → 学習済み F() の重みを固定 
 → Contrastive Spatial Pre-Training では、e() と プロジェクションレイヤー W() の学習を行う 
 
 
 手法:①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP) 
 12
  9. • 各エンコーダーごとに少数ラベル付きデータを用いてFTを行う 
 
 • 画像エンコーダー:
 ◦ プロジェクションレイヤー W() を外し、分類ヘッド

    g() を取り付けて多クラスの予測を行う 
 ◦ W() は位置埋め込みと次元数を揃え、画像↔位置情報のペアを予測するタスクに特化していた 
 ◦ g() では推論時の多クラス分類に応じた出力数を用意 
 ◦ Cross entropy lossで多クラス分類を学習 
 手法: ②エンコーダーのFT 
 13
  10. 手法: ②エンコーダーのFT 
 14 • 位置情報エンコーダー:
 ◦ [Mac Aodha et

    al. (2019)] に従い、presence-absence loss関数を使用 
 
 
 
 ◦ Q個のクラスを扱う時、各クラスに対応するd次元の列ベクトルがあるとし、モデルが保持する 
 学習パラメーター(クラス埋め込み)T を乱数で用意
 ◦ モデルの出力 と正しいクラスの列ベクトルの類似度を高める・異なるクラスの列ベクトルの 
 
 類似度を低くする形で T, のパラメーターを更新していく 
 
 
 極端な例 (d=4
 Q=3) クラス埋め込み T 
 (初期値) 
 の出力
 (クラス0〜2) 
 クラス埋め込み T 
 (FT後) 
 Posペアの類似度を 
 高くする
 Negペアの類似度を 
 低くする
 [Posペア]
 お互いに
 近づける
 [Negペア]
 お互いに
 遠ざける

  11. • 画像と位置情報の入力ペア に対して、 を予測 (I:画像、 x:位置情報) 
 
 ◦ I

    と x が独立の時、ベイズの定理より 
 
 ◦ はFT済みの分類ヘッド で求められる 
 
 ◦ は位置情報エンコーダーとクラス埋め込みTの各クラスとの類似度 
 
 で求められる 
 
 例:d=4, Q=3の時の
 手法: ③テストデータ推論 
 15 位置情報
 エンコーダー出力 クラス埋め込み T
 (FT後)
 , クラス0〜2 
 に対する推論値 

  12. • 2つのタスクを扱う
 
 ◦ ①生物種の分類 
 ▪ データセット:iNat2018 
 ▪

    クラス数:8142
 • 両生類、鳥類、昆虫、植物 等 
 ▪ 画像↔位置情報ペア:436,063 
 ▪ ImageNet で学習済みの InceptionV3 を画像特徴抽出 F*() に使用 
 
 ◦ ②衛星画像の分類 
 ▪ データセット:fMoW
 ▪ クラス数:62
 • 空港、遊園地、養殖所、建設現場、畑、ダム 等 
 ▪ 画像↔位置情報ペア:363,570 
 ▪ 本データセットで教師なし学習済みの ResNet50 を画像特徴抽出 F*() に使用 
 
 • few-shot では教師ありデータを複数の割合(5, 10, 20, 100%)で用意し、分類精度への影響を検証 
 ◦ 100%は完全な教師あり学習 
 実験 
 17 https://github.com/visipedia/inat_comp/blob/ master/2018/README.md https://arxiv.org/pdf/1711.07846
  13. 実験:比較する手法 
 18 従来手法1:
 推論に位置情報を用いず、画像のみ入力 
 従来手法2:
 教師あり学習(ラベルありデータのみ学習) 
 比較手法

    (MSE) :
 Posペア・Negペアの対象学習を行わず、単純な位置ベクトル→画像ベクトルの回帰を行う 
 となるように MSE を最小化 
 Negペアを考慮しないため精度が低くなる 
 CSP-NCE-BLD : CSP-MC-BLD :
  14. 1) Img. Only (ImageNet) が最も低い精度であり、推論に位置情報を用いることが有効であると分かる 
 2) Sup. Only よりも

    CSP-NCE/MC-BLD が良い精度であり、ラベルなしデータを用いた 
 事前学習の有効性が分かる 
 3) MSE よりも CSP-NCE/MC-BLD が良い精度であり、単純な 位置情報↔画像 の回帰による 
 事前学習よりも Pos・Neg ペアによる対象学習の有効性が分かる 
 実験:①生物種の分類 
 19
  15. • 従来手法(Img. Only, Sup. Only)、比較手法 (MSE)については実験①の 1〜3)と同様の結果 
 • ①生物種の分類

    と比較して 提案手法 vs 従来手法 の差が小さい 
 ◦ 生物種の分布がある程度位置情報に依存して広く分布しているのに対して、衛星画像における 
 特定の建物クラスなどが複雑に分布しており位置情報の有効性が低くなってしまうのが原因 
 ◦ 5%のラベル付きデータによるFTでも精度が高いため、画像エンコーダーの事前学習が大きく貢献している と分かる
 実験:②衛星画像の分類 
 21
  16. (Appendix) 手法:①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP) 
 25 •

    自己教師あり学習におけるペア作成の方法 
 ◦ In-batch negative sampling (B)
 ▪ N個の画像↔位置情報ペアで構成されるミニバッチを扱う 
 ▪ N✕N個のコサイン類似度を計算 
 
 ◦ Random negative location sampling (L)
 ▪ 1つの画像↔位置情報ペアに対して、Negペアを全ラベルなしデータからランダムに選択 
 ▪ 事前学習中のエポックごとにNegペアがランダムに入れ替わる 
 
 ◦ SimCSE sampling (D)
 ▪ N個の位置情報で構成されるミニバッチを扱う 
 ▪ ロケーションエンコーダーに異なるDropoutを適用し、N✕N個のコサイン類似度を計算 
 In-batch negative sampling (B)
 SimCSE sampling (D)
 Random negative location sampling (L)

  17. • The self-supervised binary (NCE) loss 
 
 
 •

    The self-supervised multi-class (MC) loss 
 (Appendix) 手法:①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP) 
 26 In-batch negative sampling (B)
 SimCSE sampling (D)
 Random negative location sampling (L)
 ※ α1, α2, β1, β2はバランス調整用の係数 

  18. • Pos・Negペアの作り方3種類の有効性を確認 
 
 
 
 
 
 
 •

    画像エンコーダーにViTを使用した場合でも、 
 CSPは精度向上を実現 
 • 位置情報エンコーダー の次元数では、 few-shot での教師データが少ないと過学習に なりやすい傾向 (Appendix) 実験:①生物種の分類 
 27