SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery   柴田たけお 
1 資料に出てくる図引用を明記しない場合 Konstantin Klemmer et al. (2025), “SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery” (https://arxiv.org/abs/2311.17179)”, AAAI 2025 より引用

目次   2 • 自己紹介  • 研究の1ページサマリ  • 研究の背景（Introduction）  •
手法について（Method）  • 実験（Experimet）  • 結論（Conclusion） 

3 自己紹介 This image was generated by ChatGPT

柴田たけおフリーランサー東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる現在はAIや数理最適化とGISやリモートセンシングを組み合わせたソリューションに興味あり最近開発活動（ POCも含む） •衛星.GIS関連:
衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム •一般AI関連: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 •その他: SNSのコメントと写真情報からの災害対応システム自己紹介 4

5 研究の1ページサマリ This image was generated by ChatGPT

SatCLIP サマリ   6 •　衛星画像を用いた位置情報埋め込みモデル「 SatCLIP」を開発 •　Sentinel-2衛星画像と位置座標ペアから地理的特徴を深層学習で抽出 •　事前学習した位置エンコーダが緯度経度のみで環境・社会的特徴をベクトル化 •　気温予測・動物種分類・人口密度推定などの多様な位置依存タスクで高精度を実現 •　離れた地域間の共通特徴を捉え、地域を超えた汎化性能を向上
•　未活用の地球観測データを活用した汎用的な位置情報表現法として期待衛星画像と位置情報によるグローバル汎用ロケーション埋め込み  

7 研究の背景 This image was generated by ChatGPT

SatCLIP 研究の背景   8 背景と課題 •衛星画像は、環境・農業・生態学・疫学などの分野で重要な情報源 •地理的特徴（位置情報）は機械学習モデルの精度を大幅に向上させる •だが生の緯度・経度をモデルに入力すると地理的分布の偏りが原因で遠隔地への汎化性能が低下するという課題がある SatCLIPの提案 •世界中の衛星画像（Sentinel-2）とその地理座標をペアとして大量に用意（データセット：S2-100K）
•「画像」と「位置」のペアを用いた対称学習（CLIP）により、地理的位置エンコーダを事前学習 •事前学習した位置エンコーダは、緯度・経度だけでその場所特有の地理、環境情報を埋め込んだベクトルを出力提案手法の特長 •画像を使わずとも、位置情報だけで環境・社会的特徴を高精度に表現 •地域を超えた汎化性能に優れ、世界のあらゆる場所で精度が安定貢献と成果 •世界初の「グローバル対応・タスク汎用」の位置エンコーダ（ SatCLIP）を公開 •気温予測、人口密度推定、生物種分類など下流タスクで、既存手法を大幅に上回る精度を達成 •「地理的に偏りがない」埋め込みにより、未知の地域への一般化性能も向上衛星画像から「グローバル・汎用」位置埋め込みを実現  

9 手法について This image was generated by ChatGPT

手法: 衛星画像＋位置エンコーダによる対照学習  10 •目的  全地球規模の衛星画像（Sentinel-2）と座標を用いて、汎用的かつ地理的に広く適用可能な位置エンベディングを学習    •手法  - 位置エンコーダ:
球面調和＋Siren (スケールパラメータ Lで空間解像度を調整) - 画像エンコーダ: ResNet/ViT (MoCo 事前学習済み) の最終層のみ更新   - CLIP 形式の対照学習で「座標⇔衛星画像」ペアを対応づけ（256次元）   •データ  S2-100K: 世界の陸域を一様サンプリングした Sentinel-2 画像 100,000 枚＋座標     •結果・利点   - 座標のみモデルを超える高精度   - 画像直接使用より推論が軽量  - 未観測地域にも強い地理的汎化が可能    •下流タスク   大気温や標高、国コードなど多様な回帰・分類に適用し有効性を実証  

手法補足: 衛星画像＋位置エンコーダによる対照学習  11    

12 実験 This image was generated by ChatGPT

• 実験の目的   - 多様な地理空間タスクに対する汎化性能向上 (RQ1) - 未知地域への地理的汎化性能向上 (RQ2) -
SatCLIPの汎化性能向上に関して要因検証 (RQ3) •　学習データ [S2-100K] - 世界の陸域をほぼ均等にサンプリングした 100,000 枚の Sentinel-2 衛星画像   （12 チャンネル, 256×256 ピクセル, 2021/1/1 ~ 2023/5/17）  - 衛星画像中心位置緯度経度   •　学習手法   　　- 画像特徴ベクトルと、緯度・経度入力の位置エンコーダーの出力とを対応付け,対照学習で同時に最適化   - Siren位置エンコード( 球面調和関数のℓ:10,40)とモデル(ResNet18, Resnet50, ViT16)をいろいろかえて学習   •　検証内容   　 - 複数の地理空間タスクでのベンチマーク   回帰:気温, 標高, 住宅価格, 世帯所得, 人口密度  分類:国, 生物群系,　生物群詳細, 生物種 - モデル、スケールパラメータの性能への影響確認   　　- 可視化分析による定性的評価   •　比較  - 座標のみだと地表条件を捉えられず、   未知領域の汎化が不十分   - 画像直接は高精度だが計算コスト大   - SatCLIP は両者の長所を活かし軽量かつ高性能実験  13

実験  14 　•　下流タスク   - ネットワーク: 下流タスクごとに MLP (多層パーセプトロン) を構築
  - 損失関数: 回帰は二乗誤差 (MSE)、分類はクロスエントロピーを使用   - ハイパーパラメータ: 学習率や層の数・ユニット数などを検証セットでランダムサーチ   - 評価: 最終的に未使用のテストセット上で R^2 または正解率を算出   - 比較: 座標のみのベースラインや他の事前学習済み埋め込みとの性能差を検証     •　比較手法   - GPS2Vec: 画像と位置の対応を KL 損失で学習   - CSP: CLIP ベース + 追加損失 (SimCSE 等)   - GeoCLIP: CLIP ベース（MediaEval データ使用） - MOSAIKS: 衛星画像特徴を事前計算   - Identity: 座標のみをそのまま学習に利用     　• 結果ハイライト   - SatCLIP 埋め込みは９つのうち７つのタスクで   他手法を上回る   - 特に地理的に離れた地域での汎化性能が向上   　　　 - スケールパラメータ Lを上げると細かな   地理パターンを捉えやすい   　　　 - 埋め込み次元は 256 と比較的低く   推論コストも軽量  

実験結果  15 　•　全タスク平均 : SatCLIP が7/9タスクで最良　•　地域的差異 : - アメリカ限定タスクでは米国データ主体の
GeoCLIP が同等または優位 - 他地域でも SatCLIP が高精度を維持　•　地理的汎化 : - 未学習大陸 (アフリカ/アジア) でも多くのタスクで最良 - L=10 (粗い空間分解能) がゼロ/少数ショットに有利　•　埋め込み分析 : - SatCLIP は類似環境 (気候・人口密度など) を近似 - L=40 は細部、L=10 は大域パターンを捉えやすい　•　モデルの影響 : - 画像エンコーダ (ViT/ResNet)間の差は軽微 - 位置エンコーダの L が精度と汎化性能を左右　  グローバルサンプリングと Lの調整で、  多様なタスクと未観測地域へ  高い汎化性能を発揮

実験考察  16   •　下流タスクでの有用性   • SATCLIP は、様々なグローバルタスク（例：気温、標高など）で他の手法を上回る性能を示した。 • 地域限定タスク（カリフォルニア住宅価格など）では、一部
GeoCLIP との競合が見られるが、全体として地理的バイアスが少ない。     •　地理的汎化能力   • Sentinel-2 の多様な空間パターンを位置エンコーダへ転送することで、アマゾンやコンゴ盆地など、視覚的に類似する遠隔地でも類似の埋め込みが得られる。 • テスト時はどの地点にも直接適用可能で、追加の画像取得が不要。     •　位置エンコーダの影響   • 下流タスク性能は、位置エンコーダのスケール因子（L）の設定に大きく依存。 • 一方、画像エンコーダ（大規模モデル）の違いは比較的影響が少ない。

17 結論 This image was generated by ChatGPT

結論  18 •　提案と有用性   　　- 座標と衛星画像の対照学習(Clip LOSS)でグローブ上のビジュアルパターンを捉える   新手法「SatCLIP」を提案。 -
社会・環境領域の多様なタスクで、高い予測性能を示すと同時に、実装もシンプル（100,000枚の Sentinel-2 画像で単一の対照損失を学習）   •　パフォーマンスの要因   　　- S2-100K データセットがグローバルに均等分布しており、世界各地の下流タスクに対応可能   - 球面調和＋Siren ベースの位置エンコーダ設計が、地球規模データに適切     •　限界と今後の展望   - 衛星画像以外のマルチモーダル情報（音声やテキスト）の統合可能性。 - 位置エンコーダのスケール (L) を拡張し、極めて高い解像度やローカル現象への適用。 - 時系列情報の組み込み（lat, lon, time）を考慮するモデルへの拡張     •　公開情報   -SatCLIP の学習コードや S2-100K データセットは GitHub (microsoft/satclip) で利用可能    

SatCLIP: Global, General-Purpose Location Embed...

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript