Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EOGS: Gaussian Splatting for Efficient Satellit...

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry」です。この研究では、衛星画像によるDSM(地表面高さのモデル)作成に、初めて3D Gaussian Splatting(3DGS)を適用しています。非同時撮影の複数衛星画像を用いたDSM作成では、新規視点合成(NVS)手法のNeRFなどが用いられてきましたが、計算量の多さがネックになっていました。
NVSの新手法である3DGSを用いることで、大幅な計算量削減が可能であり、3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率的な座標変換②シャドウマッピング③正則化によって、NeRF並に高精度でありながら、学習時間は300分の1に抑えたDSM作成を実現しました。

Avatar for SatAI.challenge

SatAI.challenge

June 26, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 提案手法について(Method) 
 • 実験結果(Experimet) 
 • 結論(Conclusion)

  2. 河内 大輝 所属:株式会社DeNA 業務:Computer VisionなどAI技術を使った野球チーム強化 - 衛星画像対象AIモデルと説明可能性の研究など - https://www.mdpi.com/2072-4292/14/9/1970 -

    GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野 :Computer Vision(特にdeep以外)とGeospatialな領域 自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4
  3. EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry 
 6

    • 非同時撮影の複数衛星画像を用いたDSM(地表面高さのモデル)作成では、新規視点合成(NVS) 
 手法のNeRFなどが用いられてきたが計算量の多さがネックであった(GPUで~1日程度) 
 • NVSの新手法である3D Gaussian Splatting(3DGS)は大幅な計算量削減が可能。 
 • 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率 的な座標変換②シャドウマッピング③正則化によって、NeRF並に高精度で速度300倍を実現。 
 衛星画像によるDSM(地表面)作成に、初めて3D Gaussian Splattingを適用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  4. • 実サービスだとAW3Dなど 
 ◦ SGMなどのMulti-View Stereoによる古典的手法が用いられることが多い 
 • 多衛星時代には撮像時期が異なる複数画像を用いたDSM作成の可能性 


    ◦ NVS(新規視点合成)手法を用いたDSM作成が模索され、NeRFによるもの研究されてきた 
 ◦ 一方でNeRFは計算量が大きい(GPUで学習~1日程度) 
 衛星画像を用いたDSM 
 8 DTC DATA, “NTTデータの「AW3D」が果たすSDGs推進の役割 (https://dtcdata.net/article/332/)” より引用
  5. • NeRF(Neural Radiance Fields) 
 ◦ NNを用いた新規視点合成手法 
 ◦ 新規視点合成での品質の高さと手法のシンプルさでブレークスルー

    
 • NeRFの課題
 ◦ 計算量大(V100で学習に1-2日、推論1枚30秒など*) 
 最近の新規視点合成手法:NeRF[Mildenhall+2020] 
 10 Mildenhall et al. (2020), “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, ECCV. より引用
  6. • 3DGS(3D Gaussian Splatting) 
 ◦ NNを用いない新規視点合成手法 
 ◦ NeRFレベルの品質の高さと計算量の少なさの両立でブレークスルー

    
 • ざっくりいえば、3次元シーンを色のついた3次元のガウス分布(ガウシアンプリミティブ)の集合として表現する手 法
 最近の新規視点合成手法:3DGS[Kerbl+2023] 
 11 Niantic Scaniverse., “Gaussian splat training timelapse(https://www.youtube.com/watch?v=KxWqrp6jbjM) より引用
  7. • 3DGS(3D Gaussian Splatting) 
 ◦ 各ガウシアンは、中心位置μ・向きとスケール∑・不透明度α・球面調和関数係数f 
 を学習可能なパラメータとして持つ 


    ◦ 不透明度の減衰を、中心位置からのガウス関数で表現 
 ◦ 各ガウシアンの色は、球面調和関数を用いて視線方向での変化を表現 
 • ガウシアンの色同士は、以下のアルファブレンディングによって合成してレンダリング 
 ◦ I_A: カメラAから見たときの画像I 
 ◦ u: ピクセル
 ◦ ω: 重み
 ◦ g_k: k番目のガウシアンカーネル 
 3DGS:手法概要 
 12 Ebert., “Introduction to 3D Gaussian Splatting(https://huggingface.co/blog/gaussian-splatting) より引用
  8. • 3DGSの学習フロー
 1. SfMで推定した点群を初期値に 
 2. 3Dガウシアンをカメラ座標系に投影 
 3. レンダリングした画像とGTで損失計算

    
 4. 損失を元に誤差逆伝搬 
 • 3DGSの推論
 ◦ 入力:任意のカメラ視点位置 
 ◦ 出力:その視点からみた見た目(画像) 
 3DGS:手法概要 
 13 Chen et al. (2024), “A survey on 3d gaussian splatting (https://arxiv.org/pdf/2401.03890)”, CoRR. より引用 Kern; et al. (2023), “3D Gaussian Splatting for Real-Time Radiance Field Rendering(https://arxiv.org/abs/2308.04079)”, SIGGRAPH. より引用
  9. • まず、提案手法において最終的にDSMをどのように推論するかを確認する 
 
 
 
 
 
 
 


    • 各ガウシアンの中心位置μ=(x,y,z)を元に(x,y)におけるz=を推定 
 • 3DGSと同様に、各ガウシアンの重みωをかけて足し合わせる(アルファブレンディング) 
 • つまり、描画時に重みが大きいガウシアンの中心=物体表面がある可能性が高い、とみなす 
 
 • この後、学習における工夫を見ていく 
 ◦ あくまで学習時は標高のGTは使えないので、色に関する損失関数から位置と重みを学習する 
 ▪ GTの衛星画像と、そのカメラ角度でレンダリングされた画像Iから損失計算 
 Method: DSMの推論 
 15 3DGSでの画像Iのレンダリング 
 EOGSでの標高Eのレンダリング 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  10. • 3DGSの世界座標を、2D NDC座標(正規化画像座標)に愚直に変換するのは計算コスト高 
 ◦ 3DGS座標→UTM→経度緯度高度→RPC(衛星メタデータより)→2DNDC座標 
 ◦ 毎回レンダリングする時の計算コスト高 


    • 直接変換を、事前にアフィン変換(回転・拡大縮小・平行移動)で近似する 
 ◦ アフィン変換の対応関係は、各衛星画像ごとに事前に推定(ソースコードより) 
 ◦ 誤差は平均で約0.012ピクセルと非常に小さく、実用上問題ない 
 Method: 学習上の工夫①座標変換の効率化 
 16 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  11. • 衛星メタデータから太陽の位置は既知であるため、影を明示的に扱う 
 • CG分野におけるシャドウマッピング、という手法を利用 
 EOGSにおけるシャドウマッピング 
 • Step1:

    2つの視点(カメラ)を用意 
 ◦ 太陽カメラSと衛星カメラA 
 • Step2: それぞれの視点から標高をレンダリング 
 
 
 
 
 
 ◦ 衛星視点の標高    
 ▪ 右図のピクセルuではビルの壁面xの高さ 
 
 ◦ 太陽視点の標高
 ▪ 右図のピクセルu~で、xの方向を見たとき 
 手前にあるビルの屋上yの高さ 
 
 
 17 Method: 学習上の工夫②影情報の利用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  12. EOGSにおけるシャドウマッピング 
 • Step3: 視点ごとの高さを比較 
 ◦ 推定した標高を元に衛星視点のピクセルuに 
 対応する太陽視点のピクセルu~を対応付け、

    
 高さを比較
 
 
 • Step4: 影判定
 ◦ Δh>0のとき、xはyの影の中に存在する 
 • Step5: 色へ反映
 ◦ 高さの差 Δh を使って、影の濃さを表す 
 減光係数 s を以下の式で計算し、 
 レンダリングされる色に適用 
 
 
 
 ◦ これは密度ρの媒介物質で物理的に正しい 
 ◦ 環境光も踏まえて完全な黒にならないように調整 
 (ここでは詳細省略) 
 
 18 Method: 学習上の工夫②影情報の利用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  13. • 3種類の正則化項を追加 
 • [1]スパース性の促進 
 ◦ 目的:今回は機微な色味よりジオメトリに関心。透明に近いガウシアンを削減し、学習を高速化 
 ◦

    手法:↓に加えて、閾値よりαが小さい場合は破棄 
 
 
 
 • [2]ビュー間の一貫性の促進 
 ◦ 目的:視点数が少なくても、頑健で自己矛盾のない3Dモデルを構築 
 ◦ 手法:実際の視点Aと、少しずらした仮想視点B間で色及び高度は不変、という制約 
 ▪ Lccが色の一貫性、Lacが高度の一貫性 
 Method: 学習上の工夫③正則化 
 19 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  14. • 3種類の正則化項を追加 
 • [3]不透明性の促進
 ◦ 目的:建物などが、不自然な半透明な影を落とすことを防ぐ 
 ▪ 実際には暗い色がついているところを、影によって表現してしまうのを防ぎたい

    
 ▪ 影の濃さsが0か1の中間的な値をなるのを防ぎたい 
 ◦ 手法:sについてエントロピーに基づいたペナルティを課す 
 ▪ H(x)はバイナリクロスエントロピー関数 
 
 
 
 Method: 学習上の工夫③正則化 
 20 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  15. • データセット
 ◦ IEEE GRSS Data Fusion Contest (DFC2019) 


    ◦ 2016 IARPA Multi-View Stereo 3D Mapping Challenge (IARPA2016) 
 ◦ 合計7つの対象地域(AOI) 
 ◦ 各画像は約256x256平方メートルの地形をピクセルあたり30〜50cmの解像度でカバー 
 ◦ 各AOIは10〜20枚のクロップ画像によって撮像 
 ◦ クロップされたオルソ補正されていない複数日付のWorldView-3観測データと、3D衛星姿勢 
 (RPC係数でエンコード)や局所的な太陽方向などのメタデータを含む 
 • 計算環境
 ◦ 書かれていないがPeak Memory Usage=10GBらしい(suppl.に記載) 
 • DSMの精度評価(MAE) 
 ◦ 推論:真上視点から推定した高度 
 ◦ GT:lidar scan
 実験設定 
 22 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  16. • 精度的には既存のEO-NeRFに少し劣るが、学習時間が300x 
 • 葉のない領域に絞ると、EO-NeRFと同等 
 定量結果 
 24 Aira

    et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  17. • シャドウマッピングが最も重要 
 ◦ 次に、ビューの一貫性、影の不透明性、スパース性正則化の順 
 • スパース性の正則化も学習時間の圧縮に寄与(4.27→2.85) 
 


    • 右図より、EOGSは少数の画像でしか観測されていない領域で苦戦 
 Ablation Study 
 25 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用
  18. EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry 
 27

    • 非同時期撮影の複数衛星画像を用いたDSM(地表面高さのモデル)作成では、新規視点合成(NVS)手法の NeRFなどが用いられてきたが計算量の多さがネックであった(GPUで学習~1日程度) 
 • NVSの新手法である3D Gaussian Splatting(3DGS)は大幅な計算量削減が可能。 
 • 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率 的な座標変換②影情報の利用③正則化によって、NeRF並に高精度で速度300倍を実現。 
 衛星画像によるDSM(地表面)作成に、初めて3D Gaussian Splattingを適用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用