Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Prithvi-EO-2.0: A Versatile Multi-Temporal Foun...

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行うグループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は 「Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications」です。
Prithvi-EO-2.0は地球観測データを活用した多用途の基盤モデルであり、Harmonized Landsat-8/9 および Sentinel-2 のデータを基に、時系列データ(マルチテンポラルデータ)を活用し、季節変動や環境変化を適切に捉えられる設計となっています。合計 4.2M パッチ(1パッチ 256×256ピクセル)のデータで事前学習を行い、緯度・経度および時間情報を埋め込むことで、地理的・時間的な変動を考慮した高精度な予測が可能となりました。モデルの評価では、GEO-Bench(地球観測タスク向けのベンチマーク)を用いた分類・セグメンテーションタスクにおいて、競合モデルおよび旧バージョン(Prithvi-EO-1.0)を上回る性能を達成しました。

SatAI.challenge

February 02, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 第6回 SatAI.challenge勉強会
 Prithvi-EO-2.0 :
 A Versatile Multi-Temporal Foundation Model 


    for Earth Observation Applications
 平出 尚義
 本資料で紹介する図において、引用を明記しない場合は Daniela et al. (2024), “Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications”, arxiv, https://arxiv.org/abs/2412.02732 より引用
  2. 目次
 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景 (Introduction) 


    • データセットについて (Dataset descrption and sampling) 
 • 学習とモデル (Pretraining and Model Architecture) 
 • ベンチマーク評価 (Benchmarking) 
 • 下流タスク_ファインチューニング (Downstream Tasks) 
 • 結論 (Conclusion)

  3. 4 自己紹介
 平出 尚義 (ひらで なおよし) 
 
 一般財団法人 リモート・センシング技術センター

    (RESTEC) 
 つくば事業所 ALOS系解析研究課 (2020/04 - 今現在) 
 
 業務
  ・国/地域レベルでの土地利用土地被覆分類 
  ・衛星の校正検証 (ラジオメトリック / ジオメトリック) 
  ・衛星データ×AI系 (抽出、分類、超解像、基盤モデル) 
 JAXA土地利用土地被覆図 
 校正検証業務 (ジオメトリック) 
 N.Hirade et al. (2023), “光学・SAR衛星データに対する高精度な教師・検証データを低コストで取得するためのRIL及び判読システムの開発”, 日本リモートセンシング学会第75回学術講演会論文集, 29-30より引用
  4. Prithvi-EO-2.0 : 
 A Versatile Multi-Temporal Foundation Model for Earth

    Observation Applications 
 NASA・IBMが新しい地理空間基盤モデル Prithvi-EO-2.0を発表 
 • Prithvi-EO-2.0は、EO (Earth Obsevation, 地球観測) 用途向けの多用途・多時期型のGeo-Foundation Model (GFM) 
 • NASAのHarmonized Landsat-8とSentinel-2データを用いて訓練され、4.2 M の時系列サンプルデータを基に作成。 
 • 空間だけではなく、時系列を踏まえたGFMを作成することで、旧バージョン (Prithvi-EO-1.0) 
 を様々なタスクで8%上回る性能を示した。 
 • 異なるドメインや空間解像度 (0.1 m - 15 m) のリモートセンシングタスクでベンチマークを比較した結果についても、他のGFMよりも高 いスコアを示した。 
 • ベンチマークではなく、災害/LULC/環境モニタリングといった下流タスクにおいても、従来よりも高いスコアを示した。 
 縦軸:12のベンチマークの平均値 横軸:それぞれの基盤モデル ※青色バーがPrithvi-EO-2.0系
  5. Introduction 
 ・Tuia.et.al (2024) で言及されているように、EO分野では多くのGFMがリリースされている。
 ・GFMは大量の未ラベル衛星データを用いて、汎用的なモデルを事前学習 (最も有名な手法はMAE) し、
  このモデルに対して少量のデータセットをファインチューニングさせることで様々な下流のタスクに適用させる。
 


    現在のGFMの課題: 
  ➀衛星センサの違いや空間分解能の違いのハードルがあり、普及は限定的。 
  ➁EOデータの多くはマルチテンポラルデータにも関わらず、既存のGFMの多くはそれに適用できていない。 
  ➂ユーザコミュニティとのギャップ 
   ⇒多くのGFMはオープンソースで公開されているものの、モデルの作成者 (主にAI研究者) と 
    ユーザ (EO分野のエキスパート) との間にギャップがある。 
   ⇒提供されたコードをファインチューニングするのに技術的な壁が存在する。 
 “マルチテンポラルに対応した GFMを作成し、 かつユーザに使いやすくフィードバックがしやすい環境を作ろう!! ” というのが Prithvi-EO-2.0の開発目標である。
  6. Dataset Description and Sampling 
 ➀ データセット 
 ・訓練に使用するデータセットは HLS

    (Harmonized Landsat-8/9 and Sentinel-2A/2B), 空間分解能 30 m 
 - bandは双方の衛星に共通する B/G/R/NIR/SWIR1/SWIR2 の6つ。 
 - LandsatおよびSentinel-2のHLSを使用することで、同地点を3日程度の回帰で観測可能となる。 
 
 備考:HLSはGoogle Earth Engineから簡単に取得可能。    ee.ImageCollection("NASA/HLS/HLSS30/v002") ee.ImageCollection("NASA/HLS/HLSL30/v002")
 https://doi.org/10.5067/HLS/HLSS30.002 より https://doi.org/10.5067/HLS/HLSL30.002 より
  7. ➁ サンプリング ・汎用的なGFMを作成するには、多種多様の土地利用・土地被覆を持つ場所をうまくサンプリングする必要がある。
  
  サンプリング手法は以下の通り
 - 既存の全球LULCプロダクト (Copernics Land Cover

    100m、RESOLVE Ecoregions) ラベルを使用し、LULCのクラス分布を計算
 - 各LULCクラスごとに上位500タイルを選択し、その中から100タイルをランダムにサンプリング
 - 都市地域はオーバサンプリングを実施している。
 - 高エントロピーなLULCクラスのタイルを追加
 - エコリージョン846地域をカバーするように選定
 
 ・ 最終的なデータセットは 3156の訓練タイルと168の検証タイル (95:5) (1タイル ~100 km ×100 km)
 Dataset Description and Sampling 
 左:全陸域タイルのクラス分布 
 右:訓練データとして 
   サンプリングしたクラス分布 

  8. Dataset Description and Sampling 
 ➂時系列データセット作成 
  ・各HLSタイルから4つのタイムスタンプを持つ時系列データを作成
   -

    各時系列を256×256 [pix] のパッチに分割 
   - 1タイルあたり最大10パッチと制限し、ランダムサンプリング
 
  ・最終的には 訓練データ約4.2Mサンプル、検証データ 46kサンプル 
 サンプルの分布
  9. Pretraining and Model architecture 
 ・Prithvi-EO-2.0の事前学習は MAE (Masked Auto Encorder)

    での教師なし学習 
  ざっくりいうと、衛星画像にノイズ (今回は欠損) をランダムに付与させて、それを再構成 
  する学習を大量データで繰り返し、衛星で撮られた地球の被覆を学習させる。 
 左:入力衛星画像 中央:ランダムmask画像 右:再構成画像 
 https://github.com/NASA-IMPACT/hls-foundation-os/blob/main/exploration.ipynb より引用
  10. Pretraining and Model architecture 
 ・アーキテクチャは以下 
 - 3Dパッチ埋め込み
 -

    緯度経度と日時を2Dのサインコサインで埋め込み (これ賢い!) 
 - EncorderとDecorderはViTを基盤とした構造 
 ・モデルサイズは 300M (ViT-L) と600M (ViT-H) の2種類を作成 

  11. Downstream Tasks 
 ➂消失強度マッピング (Burn Intensity Mapping) 使用データ:HLS、Burned Area Emergency

    Response から取得した火災影響データ ( 0-4の5段階のラベル ) 訓練データ分布 結果 ✓Unetの方が精度が高い結果に。 Prithviのようなグローバルスケール の基盤モデルだと、高解像度かつ小 さなパッチのタスクだと精度が劣る可 能性を示唆している。
  12. Downstream Tasks 
 ➃地すべり検出  使用データ : Landslide4Sense (全球の地すべりデータ) ✓ Prithvi

    600 M がスコアが高い。   Burn Intensity MappingではUnetに負けており、今回のタスクも小さいパッチの検出タスクなので、   なぜこちらのタスクはPrithvi 600 Mが勝っているかよくわからない (コメント) ✓2.5%のデータをファインチューニングした結果はPrithviが勝っているように見える。基盤モデルの利点が出ている。 全データを訓練に使用 2.5%のデータを訓練に使用 全データを訓練した場合の推論結果比較
  13. Downstream Tasks 
 ⑥地上バイオマス (AGB) 推定 使用データ:BioMasteters データセット - フィンランド森林のAGB推定用として作成

    - S1/S2からなるデータセット - 1pixelあたりのバイオマス量を含んでいる アーキテクチャ:Prithvi-UNetハイブリッドモデル 高バイオマス値の予測 において、Prithviモデルは 精度が低い
  14. Downstream Tasks 
 ⑦光合成量 (Gross Primary Productivity) 推定  植物が光合成を通じて吸収する炭素量を推定  使用衛星データ:HLS,

    MERRA-2気象データ (温度、降水量、土壌水分等), GPP観測値  対象サイト:全球に分布する37箇所  サンプル数:975 ✓AGBと同様に高GPP値の予測精度が低い印象 (分散が大きい)
  15. Conclusion 
 ・Prithvi-EO-2.0は地球観測における GFMとして以下の成果を達成 - 時系列データ対応 マルチテンポラルデータとして埋め込むことで、従来のモデルが苦手とする 長期変動や季節性を捉える能力が向上 - ベンチマーク評価

    GEO-Benchの評価において、Prithvi-EO-2.0 (600Mモデル) が他のGFMや 旧バージョンを上回る性能を示した - 下流タスクについて 災害、LULC、環境モニタリングにおいて、その殆どで精度が向上 課題: - 一部のタスクでは局所的な特徴の抽出が不足している。 次のステップ: - さらなるデータセットの拡充と SARデータの統合