Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SkySense : A Multi-Modal Remote Sensing Foundat...

SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は 「SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery」です。SkySenseはWorldView-3/4の高空間分解能光学衛星データ、Sentinel-2の時系列中空間分解能光学衛星データ、Sentinel-1の時系列中空間分解能SAR衛星データという3つのモダリティを統合し、マルチモーダルな特徴学習を実現する自己教師ありの大規模リモートセンシング地理空間基盤モデルです。時系列データ、複数スケール、モダリティ間、地理的特徴を学習させることで汎用性のあるモデルの作成が可能となりました。SkySenseを用いて、ベンチマークを比較した結果、7つのタスク/16のデータセットでSoTAを達成しました。

SatAI.challenge

April 19, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. SatAI.challenge 勉強会 (4/12 (土) 13:00-13:25)
 みんなで作るメタサーベイ:衛星データを活用したマルチモーダルAI
 SkySense :
 A Multi-Modal

    Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
 平出 尚義
 本資料で紹介する図において、引用を明記しない場合は Xin Guo et.al. (2024), Skysense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery より引用するものとする。
  2. 目次
 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景 (Introduction) 


    • 関連研究 (Related Work) 
 • SkySense (Model architecture) 
 • SkySense (Pre-training) 
 • Experiments
 • Discussion & Ablation Studies 
 • Conclusion

  3. 4 自己紹介
 平出 尚義 (ひらで なおよし) 
 
 ・一般財団法人 リモート・センシング技術センター

    (RESTEC) 
  つくば事業所 ALOS系解析研究課 
 ・筑波大学大学院 博士課程後期1年生 (2025/04 -, 社会人D) 
 ・SatAI メンバ
 
 業務 ・国/地域レベルでの土地利用土地被覆分類 
    ・衛星の校正検証 (ラジオメトリック / ジオメトリック) 
    ・衛星データ×AI系 (抽出、分類、超解像、基盤モデル) 
 JAXA土地利用土地被覆図 
 校正検証業務 (ジオメトリック) 
 N.Hirade et al. (2023), “光学・SAR衛星データに対する高精度な教師・検証データを低コストで取得するためのRIL及び判読システムの開発”, 日本リモートセンシング学会第75回学術講演会論文集, 29-30より引用
  4. SkySense : A Multi-Modal Remote Sensing Foundation Model Towards 


          Universal Interpretation for Earth Observation Imagery 
 ・SkySenseは、21.5M の時系列リモートセンシング  データで事前学習された、 2024年3月当時では  史上最大規模のマルチモーダルリモートセンシング  基盤モデル (RSFM). ・光学高空間分解能画像 (WorldView-3/4)  光学時系列中空間分解能画像 (Sentinel-2)  SAR時系列中空間分解能画像 (Sentinel-1)  の3つのマルチモーダルデータを  時系列かつ地理的特徴を  学習させ、汎用性のある基盤モデルを作成 . ・7つのタスク、16のデータセットでSoTA. Skysense アーキテクチャ バカでかモデルですが、たくさんの工夫あり
  5. Introduction 
 疑問:良いRSFMとは何か? ➀マルチモーダル・時系列データを理解していること - 光学データ : 色やテクスチャが豊かだが、雲といった天候に弱い - SARデータ:全天候・昼夜対応だが、解釈が難しい

    ➁ 柔軟なモデルであること - 単時期データでも、多時期データでも使える - 光学データだけ、SARデータだけでも使える - ピクセルベース、オブジェクトベースの分類のどちらにも使える ➂ 地理的情報を学んでいること - 季節性 (春夏秋冬で見え方は異なる) - 地域性 (場所によって植生が異なる) SkySenseを提案
  6. Introduction 
 ・SkySenseとは - 世界最大規模のマルチモーダルRSFM (パラメータ数: 2.06 billion) - 3つのモダリティを使用

    高空間分解能光学画像 (HSROIs) 中空間分解能時系列マルチスペクトル光学画像 (TMsI) 中空間分解能時系列SAR画像 (TSARI) - 地理情報をフル活用 - 柔軟なモジュール設計により、様々な下流タスクに適応 SkySenseは柔軟な入力タイプを持つ 異なる7つのタスク、16データセットでSota
  7. Related Work 
 これまでのRSFMのアプローチの特徴 ✓ Contrastive Learning 系 「似ている画像は近づけて、異なる画像は引き離す」  ように特徴ベクトルを学習

    Kumar Ayush et.al (2021) Geography-Aware Self-Supervised Learning (ICCV 2021) ・ラベルなしのリモートセンシング画像  から、有用な特徴を自己教師ありで学習  するため、地理的情報を加える フロー ➀衛星画像にランダムAugmentation, 2つの画像を生成 ➁各画像をエンコーダに通して特徴ベクトルを取得 ➂Contrastive Loss, 似ている画像を正例として近づ  け、他の画像を負例として遠ざけるように学習 本手法の課題: モダリティの汎用性が少ない。 (光学とSARは同じ場所を見ていても特徴が異なるため。 ) GASSL [2], DINO-MC [77], SeCo [52], CACo [51] 等
  8. Related Work 
 これまでのRSFMのアプローチの特徴 ✓ MIM系 (Masked Image Modeling系)  画像の一部を隠して自己教師あり学習

    (MAEが代表的)    左:入力衛星画像 中央:ランダムmask画像 右:再構成画像 
 https://github.com/NASA-IMPACT/hls-foundation-os/blob/main/exploration.ipynb より引用 論文では➀時系列情報への対応 , ➁モダリティが光学ばかり , ➂地理情報を活用していない と課題提起している。            RingMo [64], SatMAE [19], Scale-MAE [57] 等
  9. SkySense, Pre-training dataset 
 1. Pre-training dataset モダリティ センサー 特徴

    HSROI (x_HR) (高解像度光学) WorldView-3, 4 解像度高・静的・ RGB TMsI (x_Ms) (中解像度時系列  マルチスペクトル) Sentinel-2 時系列・多バンド TSARI (x_SAR) (時系列SAR) Sentinel-1 時系列・VV/VH偏波 ✓各サンプル = {x_HR, x_Ms, x_SAR} - x_HR : 1枚 - x_Ms : 20枚 (ランダムな時期) - x_SAR : 10枚 (ランダムな時期) ✓総サンプル数:21.5 M セット   = 21.5M × 31 [枚] ✓6大陸, 40カ国以上からサンプリング サンプリングした国と地域
  10. SkySense, Model Aechitecture 
 ✓Spatial Feature Extraction - 用意したデータセット (x_HR,

    x_Ms, x_SAR) に対して空間エンコード (g_HR, g_Ms, g_SAR) - 時系列方向にすべてのモダリティの特徴をConcat - 全モダリティ・時系列の特徴を表現 height, width, Time-series, feature dimension x_HRのgだけSwinTransformerなのはなぜ?  ➤計算量を抑えたかったからと思われる。 Ns = h × w : 空間 NT = T_HR + T_Ms + T_SAR (全31枚)
  11. SkySense, Model Aechitecture 
 Multi-Modal Temporal Fusion - 各時点に対応する日付情報を埋め込み (data-specific

    temporal positional encoding) - 要約用のextra token F_eを追加 - Transformer Encoderに投入, NT部分をSelf Attentionすることで全時系列・全モダリティを融合. 出力は(Ns × (1+NT) × d) の”1”部分を抽出
  12. SkySense, Model Aechitecture 
 ✓Attentional Geo-Context Integration - 地球全体を複数の地理的ブロックNに分 け、それぞれにPrototype,

    P を持たせ入 力画像の地域に対応するP を使って特 徴を補強する。 ( 論文ではN=4096、P=100 ) - 各地域 r にはNp個の学習可能な Prototype ベクトルが用意される。   - F_fus_mmとPをSelf-Attentionにより 融合することで重要な地理的文脈を 理解。これを元の特徴と結合させる。 ※GCP(Geo-Context Prototype)は特徴ベクトルfを地域ごとのPにどの程度 属するかを求める作業。偏りを減らすためにSinkhorn-Knoppで正則化
  13. SkySense, Pre-training 
 ✓Pre-trainingのコア技術 - Multi-Granularity Contrastive Learning (MGCL) pixel,

    object, image の3つのスケール (粒度) でTeacher, Studentの正 例/負例を構築し、自己教師あり学習を行う。 ✓損失関数を以下と定義 あるモダリティi のpix, obj, imgの3スケールの Contrastive Learning Lossを足し合わせる 各モダリティの損失を足し合わせ、 最後にF_fusも足して損失関数を定義 「スケール」と「モダリティ」の両方で自己教師あり学習を行う。 ※FGCL : Fine-grained contrastive learning
  14. SkySense, Pre-training 
 ✓Pre-trainingのコア技術 - Cross-Modal Alignment (CMA) 異なるモダリティ (光学とSAR)

    の特徴表現を揃える ➤異なるモダリティで観測された同じ場所の画像を、意味的に  同じ表現空間にマッピングされるようにする処理 光学 (Sentinel-2) ※MMCL : Multi-Modal contrastive learning SAR (Sentinel-1) ✓最終的な損失は MGCLとCMAにスケールファクターをつけて足し合わせた式    この損失関数でパラメータチューニングを行い、 Teacher側のF_fusを以って  事前学習済みモデルとして下流タスクに使う。
  15. Experiments, Multi-Modal Tasks 
 ✓マルチモーダルタスクも  SkySenseが既存のSoTAを  上回る結果に。 ✓(a)のタスクでPlanetの画像を  事前学習していないのに何故  精度が高い?

    ➤Planet用のエンコーダを追加  している。ImageNetで事前学習  させたらしい。 ➤未学習のモダリティも後から  取り込めるのがすごい。 ※GCP : 地域ごとのPrototype  GEP : 地理メタ情報 (緯度経度, 日付など)
  16. Discussion & Ablation Studies 
 ✓SkySenseに導入されている4つのモジュールが下流タスクにどの程度貢献して  いるかを調査 (Ablation)  ➤すべてのモジュールが性能向上に寄与 ※MGGL:

    pixel, object, imageの異なる粒度を     一貫して学習するモジュール      Contrastive Lossを適用   MM: 異なるモダリティ、時系列の画像を      統一的に表現, 時間の埋め込みもココ   CMA: 異なるモダリティの出力が同じ意味の画      像であれば同じ特徴空間にマッピング GCPL: 地球を領域毎に分割し、各地域に固有の      Prototypeを自己教師ありで学習
  17. Conclusion & Future Work 
 ✓本研究は, SkySenseという大規模な  マルチモーダルリモートセンシング基盤モデルを提案した。 ✓SkySenseは以下の特徴を持つ。 -

    柔軟なモジュール設計で単一/複数モダリティ、多様なタスクに適用可能 - モジュールを状況に応じて選択・組み合わせ可能 (MGGL, MM, CMA, GCPL) - 7つのタスク, 16のデータセットでSoTA ✓今後は Language モダリティを組み込むことを計画