Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Horizon-GS: Unified 3D Gaussian Splatting for L...

Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes

Scaffold-GS, Octree-GSをベースに、地上と空からの2種類の撮影画像から復元するための工夫たち。 CVPR2025。

Avatar for Spatial AI Network

Spatial AI Network

May 15, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. 2025/04/08 Spatial AI 勉強会 読み手: 菊池悠太 (Preferred Networks, inc.) to

    appear at CVPR2025 図表などは特に断り無ければ論文やproj. pageより (関連論文)とあるページの図表などはその関連論文より
  2. 3 • Aerial-to-ground(空撮と地上撮影が混ざったデータ)な復元 ◦ 空からの地上という2ステージのアプローチ ◦ LoDやチャンク分けなど広域の復元テクニックと組み合わせ ◦ 多分はじめて •

    Scaffold-GSやそのLoD拡張であるOctree-GSがベース ◦ 両論文と著者被りが多い。両論文が前提で数式が最小限 ◦ Aerial-to-groundデータでOctree-GSするなら?みたいな話 ▪ でもOctree-GSとの直接の比較が無い • 選定理由: 過去の展示で経験して大変だった経験から→ Horizon-GS 加賀温泉駅と大土集落の3Dスキャン Visiting Virtual Kagaonsen Station
  3. 5 • 3.2. Gaussian Splatting Base Modules • 3.3. Aerial-Street

    Joint Reconstruction ◦ Coarse-to-Fine Training. ◦ Balanced Camera Distribution. ◦ Multi-resolution LOD Construction. • 3.4. Large-scale Scene Training • 3.5. Loss Function and Regularization Horizon-GS: 論文の構成で紹介 ベースであるScaffold-GSとOctree-GSを最初に
  4. 6 (関連研究) Scaffold-GS • SfM点群PからボクセルVを作成(εがvoxel size) • 各ボクセル中心(アンカー)に特徴ベクトルと k個のガウシアンオフセットを割当 ◦

    densificationするときは、アンカーを増やす • ガウシアンのopacity, color, scale, quaternionは特徴ベクトルとカメラ姿勢を元に MLPで動的に生成 Figure from Lu+, “Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering”, CVPR2024 ← ボクセルvの座標x、スケールl、オフセットOから   k個のガウ シアンの位置が決まる式 ← ボクセルvの特徴ベクトルfとカメラ情報から  k個分のopacityが決まる式(FがMLP)  (color, scale, quatもそれぞれMLPがある)
  5. 7 (関連研究) Octree-GS SfM点群からoctreeを構築 level数はカメラとcolmap点群の距離ベース L=0でscaffold-GSと一致 • level Lでレンダリングする時、それ以下の levelに属するガウシアンを全て使う

    • 高いレベルは残差的に細かいところを補強 するようなprogressiveな工夫 Densificationのとき、平均gradが閾値を超えたボクセルに同 levelのアンカーを増やす ただ、より大きな閾値を超えた場合は次のレベルにアンカーを増やすことでディティールを強化
  6. 8 Coarse-to-Fine Training 復元工程を以下の2つのステージに分ける(どのステージでも空と地上両方使う) • 1st stage: ◦ シーンの大まかな構造を捉えるため、空撮のみで densificationのための勾配蓄積を行う

    ▪ 空撮用levelのみでアンカーを増やしていく ◦ 地上画像も使用はする • 2nd stage: ◦ MLPの重みをフリーズすることで 1stで得たシーンの大まかな構造( skelton)を保持 ▪ (完全フリーズで大丈夫なのだろうか) ◦ 地上画像によって詳細を肉付けしていく、そのためにも densificationのルールを変更 ▪ 従来 : screen空間での平均grad ▪ 提案手法 : screen空間での最大grad, 平均opacity、最大半径(τはハイパラ) largeでunboundedなシーンに平均 gradを使うことの問題点について指摘した Hierarchical-GSに由来 (Hierarchical-GSは広域だけど地上のみ) Kerbl+, “A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets”, SIGGRAPH 2024 3.3. Aerial-Street Joint Reconstruction
  7. 10 Multi-resolution LOD Construction Octree-GS(次ページ)というScaffold-GSにLoD要素を入れた手法を利用 Octree-GSをAerial-to-Ground化するにあたって • 全K階層のうち空撮用level K aerial

    を設定 • 1st stageではK aerial のみ使う、アンカーのdensificationも同じレベルでのみ増やす • 2nd stageでは全部使う、さらに「勾配が大きい場合より高いレベルのアンカーを増やす」という Octree-GSで提案された機能も解禁 3.3. Aerial-Street Joint Reconstruction
  8. 15 3.5. Loss Function and Regularization 深度ロス、実写データの GTはDepth Anything v2で推定

    Yang+, “Depth Anything V2. A More Capable Foundation Model for Monocular Depth Estimation”, NeurIPS2024 2DGSなどで使われている、「法線マップ」と「深度マップから計算した法線マップ」を一致させる
  9. 25 • camera balance: 1stでは2/3の確率で空を使うやつ • densify balance: 1stでのdensificationを空だけ、2ndでは地上だけでやるやつ •

    multi LoDしないと空が悪化する。 • densify policy、↓の式を平均gradに戻す Ablation Studies
  10. 28 • Scaffold-GS、Octree-GSをベースに各所にAerial-to-Groundなデータで復元するための工夫たち ◦ 3.3. Aerial-Street Joint Reconstruction ▪ Coarse-to-Fine

    Training. • 1st stageで空撮基準でdensification • 2nd stageは各種MLPを固定、densification基準も変更 ▪ Balanced Camera Distribution. • 1st stageでは空撮を多く使う、2ndで半々 ▪ Multi-resolution LOD Construction. • 1st stageでは空用LoDのみ使用、densificationは同レベルのみ • 2nd stageでOctree-GS通り全部で ◦ 3.4. Large-scale Scene Training ▪ 全体を複数のチャンクに分けるとき、地上視点の点群を推定depthから補強 まとめ
  11. 29

  12. 30 BungeeNeRF Xiangli+, “BungeeNeRF: Progressive Neural RadianceField for Extreme Multi-scale

    Scene Rendering”, ECCV2022 Google Earth Studioを使って高い高度(数 1000m)から低い高度(数100m)へ順にレベル(詳細度)が上 がっていくようなデータセットを構築 高い高度で学習したパラメータに付け足す形で次のレベルの表現を学習( b)