本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「EarthSynth: Generating Informative Earth Observation with Diffusion Models」です。
本研究では、ラベル付きリモートセンシング画像の不足という課題に対し、マルチカテゴリ・マルチソースに対応した拡張学習用データを生成するための拡散モデルベースの基盤モデル「EarthSynth」を提案しています。EarthSynthは、画像、セマンティックマスク、テキストプロンプトが整合した180Kサンプルから成るEarthSynth-180Kデータセットで訓練されており、シーン分類、物体検出、セマンティックセグメンテーションといった複数の下流タスクに対応可能です。
特に注目すべき点は、現実には存在しないが論理的には整合したシーンを生成する「Counterfactual Composition (CF-Comp)」戦略を採用し、レイアウトの制御性とカテゴリの多様性を両立させている点です。また、CLIPスコアに基づくルールベースのフィルタリング手法「R-Filter」を導入することで、タスクに有用な高品質な合成データのみを選別しています。