EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry [CVPR2025]  河内
大輝  1 第12回 SatAI.challenge勉強会 

目次   2 • 自己紹介スライド  • 研究の1ページサマリ紹介   • 研究の背景（Introduction）
  • 提案手法について（Method）   • 実験結果（Experimet）   • 結論（Conclusion） 

3 著者紹介 This image was generated by ChatGPT

河内大輝所属：株式会社DeNA 業務：Computer VisionなどAI技術を使った野球チーム強化 - 衛星画像対象AIモデルと説明可能性の研究など - https://www.mdpi.com/2072-4292/14/9/1970 -
GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野：Computer Vision（特にdeep以外）とGeospatialな領域自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4

5 論文サマリ This image was generated by ChatGPT

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry   6
• 非同時撮影の複数衛星画像を用いたDSM（地表面高さのモデル）作成では、新規視点合成（NVS）   手法のNeRFなどが用いられてきたが計算量の多さがネックであった（GPUで~1日程度）   • NVSの新手法である3D Gaussian Splatting（3DGS）は大幅な計算量削減が可能。   • 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率的な座標変換②シャドウマッピング③正則化によって、NeRF並に高精度で速度300倍を実現。   衛星画像によるDSM（地表面）作成に、初めて3D Gaussian Splattingを適用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

7 Introduction: 背景 This image was generated by ChatGPT

• 実サービスだとAW3Dなど   ◦ SGMなどのMulti-View Stereoによる古典的手法が用いられることが多い   • 多衛星時代には撮像時期が異なる複数画像を用いたDSM作成の可能性  
◦ NVS（新規視点合成）手法を用いたDSM作成が模索され、NeRFによるもの研究されてきた   ◦ 一方でNeRFは計算量が大きい（GPUで学習~1日程度）   衛星画像を用いたDSM   8 DTC DATA, “NTTデータの「AW3D」が果たすSDGs推進の役割（https://dtcdata.net/article/332/）” より引用

• 新規視点合成：3Dシーン合成により、撮影していない新しい視点からの画像を合成するタスク   • 見た目だけで、必ずしも3次元形状の推定は伴わず   新規視点合成（Novel View Synthesis）  
9 Yeshwanth et al. (2023), “ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes”, ICCV. より引用

• NeRF（Neural Radiance Fields）   ◦ NNを用いた新規視点合成手法   ◦ 新規視点合成での品質の高さと手法のシンプルさでブレークスルー
  • NeRFの課題  ◦ 計算量大（V100で学習に1-2日、推論1枚30秒など*）   最近の新規視点合成手法：NeRF[Mildenhall+2020]   10 Mildenhall et al. (2020), “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, ECCV. より引用

• 3DGS（3D Gaussian Splatting）   ◦ NNを用いない新規視点合成手法   ◦ NeRFレベルの品質の高さと計算量の少なさの両立でブレークスルー
  • ざっくりいえば、3次元シーンを色のついた3次元のガウス分布（ガウシアンプリミティブ）の集合として表現する手法  最近の新規視点合成手法：3DGS[Kerbl+2023]   11 Niantic Scaniverse., “Gaussian splat training timelapse（https://www.youtube.com/watch?v=KxWqrp6jbjM）より引用

• 3DGS（3D Gaussian Splatting）   ◦ 各ガウシアンは、中心位置μ・向きとスケール∑・不透明度α・球面調和関数係数f   を学習可能なパラメータとして持つ  
◦ 不透明度の減衰を、中心位置からのガウス関数で表現   ◦ 各ガウシアンの色は、球面調和関数を用いて視線方向での変化を表現   • ガウシアンの色同士は、以下のアルファブレンディングによって合成してレンダリング   ◦ I_A: カメラAから見たときの画像I   ◦ u: ピクセル  ◦ ω: 重み  ◦ g_k: k番目のガウシアンカーネル   3DGS：手法概要   12 Ebert., “Introduction to 3D Gaussian Splatting（https://huggingface.co/blog/gaussian-splatting）より引用

• 3DGSの学習フロー  1. SfMで推定した点群を初期値に   2. 3Dガウシアンをカメラ座標系に投影   3. レンダリングした画像とGTで損失計算
  4. 損失を元に誤差逆伝搬   • 3DGSの推論  ◦ 入力：任意のカメラ視点位置   ◦ 出力：その視点からみた見た目（画像）   3DGS：手法概要   13 Chen et al. (2024), “A survey on 3d gaussian splatting (https://arxiv.org/pdf/2401.03890)”, CoRR. より引用 Kern; et al. (2023), “3D Gaussian Splatting for Real-Time Radiance Field Rendering（https://arxiv.org/abs/2308.04079）”, SIGGRAPH. より引用

14 提案手法 This image was generated by ChatGPT

• まず、提案手法において最終的にDSMをどのように推論するかを確認する                
• 各ガウシアンの中心位置μ=(x,y,z)を元に(x,y)におけるz=を推定   • 3DGSと同様に、各ガウシアンの重みωをかけて足し合わせる（アルファブレンディング）   • つまり、描画時に重みが大きいガウシアンの中心=物体表面がある可能性が高い、とみなす     • この後、学習における工夫を見ていく   ◦ あくまで学習時は標高のGTは使えないので、色に関する損失関数から位置と重みを学習する   ▪ GTの衛星画像と、そのカメラ角度でレンダリングされた画像Iから損失計算   Method: DSMの推論   15 3DGSでの画像Iのレンダリング   EOGSでの標高Eのレンダリング   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• 3DGSの世界座標を、2D NDC座標（正規化画像座標）に愚直に変換するのは計算コスト高   ◦ 3DGS座標→UTM→経度緯度高度→RPC（衛星メタデータより）→2DNDC座標   ◦ 毎回レンダリングする時の計算コスト高  
• 直接変換を、事前にアフィン変換（回転・拡大縮小・平行移動）で近似する   ◦ アフィン変換の対応関係は、各衛星画像ごとに事前に推定（ソースコードより）   ◦ 誤差は平均で約0.012ピクセルと非常に小さく、実用上問題ない   Method: 学習上の工夫①座標変換の効率化   16 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• 衛星メタデータから太陽の位置は既知であるため、影を明示的に扱う   • CG分野におけるシャドウマッピング、という手法を利用   EOGSにおけるシャドウマッピング   • Step1:
2つの視点（カメラ）を用意   ◦ 太陽カメラSと衛星カメラA   • Step2: それぞれの視点から標高をレンダリング             ◦ 衛星視点の標高　　　　  ▪ 右図のピクセルuではビルの壁面xの高さ     ◦ 太陽視点の標高  ▪ 右図のピクセルu~で、xの方向を見たとき   手前にあるビルの屋上yの高さ       17 Method: 学習上の工夫②影情報の利用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

EOGSにおけるシャドウマッピング   • Step3: 視点ごとの高さを比較   ◦ 推定した標高を元に衛星視点のピクセルuに   対応する太陽視点のピクセルu~を対応付け、
  高さを比較      • Step4: 影判定  ◦ Δh>0のとき、xはyの影の中に存在する   • Step5: 色へ反映  ◦ 高さの差 Δh を使って、影の濃さを表す   減光係数 s を以下の式で計算し、   レンダリングされる色に適用         ◦ これは密度ρの媒介物質で物理的に正しい   ◦ 環境光も踏まえて完全な黒にならないように調整   （ここでは詳細省略）     18 Method: 学習上の工夫②影情報の利用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• 3種類の正則化項を追加   • [1]スパース性の促進   ◦ 目的：今回は機微な色味よりジオメトリに関心。透明に近いガウシアンを削減し、学習を高速化   ◦
手法：↓に加えて、閾値よりαが小さい場合は破棄         • [2]ビュー間の一貫性の促進   ◦ 目的：視点数が少なくても、頑健で自己矛盾のない3Dモデルを構築   ◦ 手法：実際の視点Aと、少しずらした仮想視点B間で色及び高度は不変、という制約   ▪ Lccが色の一貫性、Lacが高度の一貫性   Method: 学習上の工夫③正則化   19 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• 3種類の正則化項を追加   • [3]不透明性の促進  ◦ 目的：建物などが、不自然な半透明な影を落とすことを防ぐ   ▪ 実際には暗い色がついているところを、影によって表現してしまうのを防ぎたい
  ▪ 影の濃さsが0か1の中間的な値をなるのを防ぎたい   ◦ 手法：sについてエントロピーに基づいたペナルティを課す   ▪ H(x)はバイナリクロスエントロピー関数         Method: 学習上の工夫③正則化   20 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

21 実験結果 This image was generated by ChatGPT

• データセット  ◦ IEEE GRSS Data Fusion Contest (DFC2019)  
◦ 2016 IARPA Multi-View Stereo 3D Mapping Challenge (IARPA2016)   ◦ 合計7つの対象地域（AOI）   ◦ 各画像は約256x256平方メートルの地形をピクセルあたり30〜50cmの解像度でカバー   ◦ 各AOIは10〜20枚のクロップ画像によって撮像   ◦ クロップされたオルソ補正されていない複数日付のWorldView-3観測データと、3D衛星姿勢   （RPC係数でエンコード）や局所的な太陽方向などのメタデータを含む   • 計算環境  ◦ 書かれていないがPeak Memory Usage=10GBらしい（suppl.に記載）   • DSMの精度評価（MAE）   ◦ 推論：真上視点から推定した高度   ◦ GT：lidar scan  実験設定   22 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• アルベドマップ（影や色補正をしていないマップ）   ◦ EOGSでは、ノイズも見られるが、エッジ自体はくっきり出ている   ◦ EO-NeRFでは、ノイズ少ないが不要な凹凸が出ていそう   定性結果
  23 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• 精度的には既存のEO-NeRFに少し劣るが、学習時間が300x   • 葉のない領域に絞ると、EO-NeRFと同等   定量結果   24 Aira
et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

• シャドウマッピングが最も重要   ◦ 次に、ビューの一貫性、影の不透明性、スパース性正則化の順   • スパース性の正則化も学習時間の圧縮に寄与（4.27→2.85）    
• 右図より、EOGSは少数の画像でしか観測されていない領域で苦戦   Ablation Study   25 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

26 結論 This image was generated by ChatGPT

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry   27
• 非同時期撮影の複数衛星画像を用いたDSM（地表面高さのモデル）作成では、新規視点合成（NVS）手法の NeRFなどが用いられてきたが計算量の多さがネックであった（GPUで学習~1日程度）   • NVSの新手法である3D Gaussian Splatting（3DGS）は大幅な計算量削減が可能。   • 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率的な座標変換②影情報の利用③正則化によって、NeRF並に高精度で速度300倍を実現。   衛星画像によるDSM（地表面）作成に、初めて3D Gaussian Splattingを適用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

EOGS: Gaussian Splatting for Efficient Satellit...

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript