Upgrade to Pro — share decks privately, control downloads, hide ads and more …

3D Gaussian Splattingによる高効率な新規視点合成技術とその応用

3D Gaussian Splattingによる高効率な新規視点合成技術とその応用

CVIM チュートリアル公演 (2025年1月25日)
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用

Hide Matsuki

March 11, 2025
Tweet

Other Decks in Research

Transcript

  1. ⾃⼰紹介 ⽴野 圭祐 Keisuke Tateno - Google AR, Staff Research

    Scientist / Engineering Manager - Research Interest: SLAM, 3D Reconstruction, 3D Scene Understanding 2 Dense SLAM by CNN depth prediction + 3D Semantic Segmentation CNN-SLAM [CVPR2017] SceneGraphFusion [CVPR2021] Dense SLAM + 3D Semantic Scene Graph Estimation Robust / Fast 3D-GS RadSplat [3DV2025]
  2. ⾃⼰紹介 松⽊ 秀伸 Hidenobu Matsuki - Google AR, Research Engineer

    - Imperial College London 博論提出済 (指導教官: Prof. Andrew Davison) - 研究領域: Visual SLAM, 3D Vision 3 単眼NeRF SLAM (ICRA’22 Best Navigation Award Finalist) Gaussian Splatting SLAM (CVPR’24, Best Demo Award) ⿂眼vSLAM
  3. レンダリング 9 レンダリング 3次元シーン (形状, ⾊, etc..) カメラ姿勢 画像群 [Mildenhall2024]

    Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." ECCV 2020. 既知の3次元シーンに対してカメラ視点を指定し、そこに映る画像を描画する.
  4. NeRF vs 3D Gaussian Splatting 16 NeRF 3D Gaussian Splatting

    何を表現するのか? Radiance Field そのためのパラメータ表現は? Multi Layer Perceptron 3D Gaussian そのレンダリング手法は? レイマーチング ラスタライゼーション (Splatting)
  5. 20 NeRF: シーン表現 (x,y,z,θ,Φ) ( , , ,σ) • 多層パーセプトロンのみを使⽤.

    3次元位置と視線⽅向を⼊⼒に、 その点の⾊と不透明度を予測 • 不透明度 σ を⽤いることで、半透明物体や霧などの⾮固体も復元できる ◦ 加えて、物体形状を曖昧に表現する事により空間全体に勾配が流れ、収束しやすい • 視線⽅向情報を⽤いて⽅向依存の⾊変化(反射等)もモデル化 • ⼊⼒はカラー画像群とそのカメラ姿勢のみで、深度センサ等の幾何情報が不必要 3次元位置 視線⽅向 ⾊ 不透明度 FΘ
  6. 24 NeRF: ⾼速化 MLPの⼩型化 サンプル数減 ラスタライゼーションの利⽤ etc… Müller, Thomas, et

    al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM transactions on graphics (TOG) 41.4 (2022): 1-15. Liu, Lingjie, et al. "Neural sparse voxel fields." Advances in Neural Information Processing Systems 33 (2020): 15651-15663. Chen, Zhiqin, et al. "Mobilenerf: Exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures." CVPR. 2023. Instant-NGP NSVF MobileNeRF
  7. 25 NeRF: ⾼速化 MLPの⼩型化 サンプル数減 etc… [Mueller2022] Müller, Thomas, et

    al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM transactions on graphics (TOG) 41.4 (2022): 1-15. [Liu2020] Liu, Lingjie, et al. "Neural sparse voxel fields." Advances in Neural Information Processing Systems 33 (2020): 15651-15663. [Chen2023] Chen, Zhiqin, et al. "Mobilenerf: Exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures." CVPR. 2023. Instant-NGP NSVF MobileNeRF ラスタライゼーションの利⽤
  8. 26 レイマーチング vs ラスタライゼーション • レイマーチング: 物体の有無に関わらず空間上の点を参照する必要あり. • ラスタライゼーション: プリミティブ(点,

    メッシュ, Gaussian…)を, 空間内で物 体が存在する場所のみに配置し各プリミティブ毎に画像平⾯に投影させる. [Chen2024] Chen, Guikun, and Wenguan Wang. "A survey on 3d gaussian splatting." arXiv preprint arXiv:2401.03890 (2024).
  9. 29 3D Gaussian Splatting: 概要 • 独⽴したSfMモジュール (COLMAP)から得られたカメラ姿 勢とスパースな点群を取得. •

    点群は、3D Gaussianの位置の初期化に⽤いられる. • レンダリング画像と観測画像との誤差を最⼩化するよう に、Gaussianパラメータを最適化 • 勾配の⼤きさを基にGaussianの数を調整.
  10. 30 3D Gaussian Splatting: 概要 • 独⽴したSfMモジュール (COLMAP)から得られたカメラ姿 勢とスパースな点群を取得. •

    点群は、3D Gaussianの位置の初期化に⽤いられる. • レンダリング画像と観測画像との誤差を最⼩化するよう に、Gaussianパラメータを最適化 • 勾配の⼤きさを基にGaussianの数を調整.
  11. 3D Gaussian Splatting: シーン表現 31 - 各ガウシアンの不透明度(density)の減衰を、中⼼位置からのガウス関 数で定義 Σ: 共分散⾏列

    (3x3), R:回転⾏列∈SO(3), S:スケール⾏列 (3x3) - 各ガウシアンの⾊(RGB)は、球⾯調和関数を⽤いることで視線⽅向に 依存する変化を表現 3D Gaussians - 最適化変数: 中⼼位置 μ, スケールベクトル s, クォータニオン q, ⾊ c, 不透明度 o
  12. 32 3D Gaussian Splatting: 概要 • 独⽴したSfMモジュール (COLMAP)から得られたカメラ姿 勢とスパースな点群を取得. •

    点群は、3D Gaussianの位置の初期化に⽤いられる. • レンダリング画像と観測画像との誤差を最⼩化するよう に、Gaussianパラメータを最適化 • 勾配の⼤きさを基にGaussianの数を調整.
  13. 33 3D Gaussian Splatting: レンダリング 1. 3D Gaussian群を、視点からの深度順でソート (GPU-accelerated Radix

    Sort). 2. 各3D Gaussianを画像平⾯上に投影し、2D Gaussianを計算 (Splatting). 3. 複数の2D Gaussianをalpha-blendingし, ピクセルの⾊を計算. Chen, Guikun, and Wenguan Wang. "A survey on 3d gaussian splatting." arXiv preprint arXiv:2401.03890 (2024).
  14. • レンダリングする画像平⾯を 16×16 のタイルに分割. • 各タイルについて、そのタイルと重なるすべての3D Gaussianをキャッシュ. タイルが3D Gaussianの3σ内に含まれるかを基準に重複判定. •

    キャッシュされた各3D Gaussianに対し深度とタイルIDを紐付ける. ◦ Keyを64bitで表現し, 下位32bitに深度/上位bitにタイルIDを保存. • 3D Gaussianの深度値で基数ソートを⾏う (基数ソートはGPUで⾼速化可能). • 各ピクセルについて、対応するタイル内の点を⾛査し、後述の alpha-blending処理を⾏う. 3D Gaussian Splatting: ソーティング 34
  15. ビュー変換⾏列の 回転部分. 3 x 3 35 中⼼位置に対する投影関 数の線形近似 3D Gaussian

    Splatting: レンダリング - 投影された2D Gaussianの共分散⾏列Σ’は、以下の様に近似できる (導出割愛. 後⽇出版される チュートリアル記事をご参照ください). - Gaussianの投影を3 x 3⾏列の乗算数回で計算できるため、⾼速
  16. 37 3D Gaussian Splatting: 概要 • 独⽴したSfMモジュール (COLMAP)から得られたカメラ姿勢とスパースな点群を取得. • スパース点群は、3D

    Gaussianの位置の初期化に⽤いられる. • レンダリング画像と観測画像との誤差を最⼩化するように、Gaussianパラメータを最 適化 • Adaptive Density Controlプロセスを通して、Gaussianの数を調整.
  17. Gaussianの追加 (Densification) 39 損失関数に対するGaussianの位置勾配(dL/dμ)を元に追加の判断を⾏う. ⼀定のitr毎に実⾏. • 勾配の絶対値が閾値以上であれば、新しいGaussianを追加する ◦ (勾配が⼤きい ≒

    まだ⼗分にフィットできていない領域が存在する) • Gaussianの⼤きさに応じて以下の処理を⾏う ◦ Under-Reconstruction: 元のGaussianを複製し勾配⽅向に配置 ◦ Over-Reconstruction: 元のGaussianを2分割
  18. 3D Gaussian Splatting: まとめ 42 • Mip-NeRF360と同品質かつリアルタイムレンダリング可能な、実⽤的な新視点合 成⼿法を提案. • 3D

    Gaussian、及びそのラスタライゼーション⾃体は20年前から存在していた (EWA Splatting [Zwicker01] ). GPUの進化と⾃動微分フレームワークの発展のお陰で実 ⽤化のレベルに達した. • ラスタライゼーションベースの⼿法のため、既存のグラフィックスパイプライン と⾮常に親和性が⾼く実⽤的. • 明⽰的なプリミティブを使ってシーンを表現するため、直感的な操作がしやす く、下流タスクへの応⽤に幅がある (Editting, Dynamic Scene Modelling, etc…). [Zwicker01] Zwicker, Matthias, et al. "EWA splatting." IEEE Transactions on Visualization and Computer Graphics 8.3 (2002): 223-238.
  19. Problems in 3D-GS 45 Dynamic Objects / Distractors Exposure /

    Color Inconsistency inaccurate geometry Sensitivity to initialization Motion / Defocus Blur
  20. 46 While SFM greatly improves over random initialization, SfM points

    can be sparse and inaccurate, – especially for textureless areas, it leads poor 3D-GS results [Problem] Sensitivity to initialization Final 3DGS results highly depends on a good initialization Figure from J. Jung, J. Han, H. An, J. Kang, S. Park, S. Kim, “RAIN-GS: Relaxing Accurate Initialization Constraint for 3D Gaussian Splatting,” arXiv, 2024.
  21. 47 [Problem] Sensitivity to initialization Use the other priors for

    3D-GS initialization and optimization [Cheng2024] J Chung, J. Oh, K. M. Lee, “Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images”, CVPRW, 2024 [Keetha2024] N. Keetha, J. Karhade, K. M. Jatavallabhula, G. Yang, S. Scherer, D. Ramanan, J. Luiten, “SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM,” CVPR, 2024 [Niemeyer2025] M. Niemeyer, F. Manhardt, M. Rakotosaona, M. Oechsle, D. Duckworth, R. Gosula, K. Tateno, J. Bates, D. Kaeser, F. Tombari, “RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS,” 3DV, 2025. [Foroutan2024] Y. Foroutan, D. Rebain, K. M. Yi, A. Tagliasacchi, Evaluating Alternatives to SFM Point Cloud Initialization for Gaussian Splatting, arXiv, 2024 [Bulò2024] S. R. Bulò, L. Porzi, P. Kontschieder, “Revising Densification in Gaussian Splatting,“ ECCV, 2024 Improve optimization procedure Use Depth prior • RGB-D Image [Keetha2024] • Mono-depth [Cheng2024] Use Radiance Field prior [Niemeyer2025] [Foroutan2024] Points from SfM Points from NeRF Revising Densification [Bulò2024] • Propose better heuristics in Adaptive Densification Control, e.g., running density reduction instead of density resetting 3D-GS Revisiting Densification
  22. 48 Use monocular depth prior for 3D-GS optimization [Cheng2024] J

    Chung, J. Oh, K. M. Lee, “Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images”, CVPRW, 2024 Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images J Chung, J. Oh, K. M. Lee,
  23. 49 Use Radiance Field for 3D-GS initialization M Niemeyer, F

    Manhardt, MJ Rakotosaona, M Oechsle, D Duckworth, R Gosula, K Tateno, J Bates, D Kaeser, F Tombari, RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS, arXiv24 Key idea: Combine strengths of neural fields and point-based representations • Neural Fields + Stable and simple optimization even on complex data, not sensitive to initialization - Slow, large memory requirements, not supported by graphics software • 3D Gaussian Splatting - Sensitive to initialization, degrades on complex data - Fast to render, follows rasterization pipeline, potential for small memory footprint Use NeRFs as a prior and as stable supervision during 3DGS optimization + Points from SfM Points from NeRF
  24. 50 Use Radiance Field for 3D-GS initialization • Use NeRF

    for initializing and supervising 3D gaussians • Similar quality to ZipNeRF while 3000x faster (900+ fps) • Faster (~2x) than 3DGS while achieving significantly higher accuracy RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS M Niemeyer, F Manhardt, MJ Rakotosaona, M Oechsle, D Duckworth, R Gosula, K Tateno, J Bates, D Kaeser, F Tombari, “RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS,” 3DV, 2025 Technology behind Google Map Immervie View 2024
  25. 51 [Problem] inaccurate geometry 51 Since 3D-GS is designed for

    new view synthesis, surface geometry can be less accurate 2D-GS [Huang2024] • Represent 3D gaussian as 2D disk shape SuGAR [Guedon2024] • Regularize 3D gaussians flat as possible [Guedon2024] A. Guedon V. Lepetit, “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering, CVPR, 2024. [Huang2024] B. Huang, Z. Yu, A Chen, A. Geiger, S. Gao, “2DGS: 2D Gaussian Splatting for Geometrically Accurate Radiance Fields, SIGGRAPH, 2024.
  26. 52 [Problem] Dynamic Objects / Distractors Dynamic objects / distractors

    largely affects 3D-GS quality, as it breaks multiple view consistency Jointly estimate outlier masks and remove distractors in optimization process • SpotLessSplats: Ignoring Distractors in 3D Gaussian Splatting [Sabour2024] [Sabour2024] S. Sabour, L. Goli, G. Kopanas, M. Matthews, D. Lagun, L. Guibas, A. Jacobson, D. J. Fleet, A. Tagliasacchi, “SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting,” arXiv, 2024.
  27. 53 [Problem] Motion Blur / Defocus Blur Motion Blur /

    Defocus Blur degradate 3D-GS result. [Zhao2024] L. Zhao, P. Wang, P. Liu, “BAD-Gaussians: Bundle-Adjusted Deblur Gaussian Splatting,” ECCV, 2024, Simulate motion blur effect and recover de-blurred 3D-Gaussian • BAD-Gaussians: Bundle-Adjusted Deblur Gaussian Splatting [Zhao2024]
  28. 54 [Problem] Exposure / Color inconsistency Exposure / Color inconsistency

    leads floater in 3D-GS results • Because 3D-GS only models par gaussian colors in SH [Kulhanek2024] J. Kulhanek, S. Peng, Z. Kukelova, Marc Pollefeys, T. Sattler, “WildGaussians 3D Gaussian Splatting in the Wild,” NeurIPS 2024. [Dahmani2024] H Dahmani, M Bennehar, N Piasco, L Roldao, D Tsishkou, Swag: Splatting in the wild images with appearance-conditioned gaussians,” ECCV, 2024 Introduce per image appearance embeddings in 3D-GS, represent colors by MLP • SWAG: Splatting in the wild images with appearance-conditioned gaussians [Dahmani2024] • WildGaussians: 3D Gaussian Splatting in the Wild [Kulhanek2024] Per image embeddings
  29. 55 • The first vision-only 3D Gaussian SLAM method •

    The method does not require any external depth sensor/prior • Achieves real-time (~10fps) and accurate tracking/mapping 55 Gaussian Splatting SLAM [Matsuki-Murai24] Matsuki, H., Murai, R., Kelly, P. H., & Davison, A. J. (2024). Gaussian splatting slam. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition
  30. What is good about 3DGS for SLAM? 56 1. High-quality

    image rendering -> Can capture complex light field for photo-consistency 2. Differentiable Rendering -> Simplifies 2D->3D data fusion 3. Rendering speed -> Real-time tracking/mapping, and downstream task 4. Dynamic primitive allocation-> Online state estimation.
  31. 57 Gaussian Splatting SLAM On-Manifold Pose Optimization Shape Regularization Gaussian

    Allocation/Pruning Keyframing [Sola2018] Sola, J., Deray, J., & Atchuthan, D. (2018). A micro Lie theory for state estimation in robotics. arXiv preprint arXiv:1812.01537.
  32. 58 Gaussian Splatting SLAM On-Manifold Pose Optimization Shape Regularization Gaussian

    Allocation/Pruning Keyframing [Sola2018] Sola, J., Deray, J., & Atchuthan, D. (2018). A micro Lie theory for state estimation in robotics. arXiv preprint arXiv:1812.01537. 要するに... 明⽰的で物理的な取り扱いが容易である3D Gaussianの性質を最⼤限に活かし、 1. カメラ姿勢の微分係数の計算を⾼速化 (解析的に定まる) 2. Gaussianの形状に制約をかける (何も制約がないと視線⽅向に伸び続ける) 3. Gaussianを初めは雑にバラまき、観測データに合わないものをガンガン消していく事で最適な Gaussianの配置を決定 結果、ジオメトリに関する情報が⼀切無くとも、⾊情報だけで3次元復元&姿勢推定が出来る
  33. まとめ 3D Gaussian Splatting はその画像品質‧レンダリング速度において利点があり、 学術研究‧実製品の両⽅の⽂脈において注⽬を集めている. - プリミティブによる明⽰的なシーン表現により、直感的な操作を⾏いやすい (例: Editing,

    Segmentation, Tracking) - 既存のラスタライゼーションに基づいたツールと親和性が⾼い (例:WebGLを ⽤いたブラウザ上でのレンダリング, ゲームエンジン上のレンダリング) 60 初期値依存性、ジオメトリが不正確などの課題を克服する形で数多くの後続研究 が提案されている. 個⼈的には、よりコンパクトなシーン表現に置換、あるいは Feed Forwardモデルを導⼊する事で処理全体を⾼速化する事に興味がある.
  34. 引⽤⽂献 [Kerbl2024] Kerbl, Bernhard, et al. "3D Gaussian splatting for

    real-time radiance field rendering." ACM Trans. Graph. 42.4 (2023): 139-1. [Mildenhall2024] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." ECCV 2020. [Mueller2022] Müller, Thomas, et al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM transactions on graphics (TOG) 41.4 (2022): 1-15. [Liu2020] Liu, Lingjie, et al. "Neural sparse voxel fields." Advances in Neural Information Processing Systems 33 (2020): 15651-15663. [Chen2023] Chen, Zhiqin, et al. "Mobilenerf: Exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures." CVPR. 2023. [Chen2024] Chen, Guikun, and Wenguan Wang. "A survey on 3d gaussian splatting." arXiv preprint arXiv:2401.03890 (2024). [Zwicker01] Zwicker, Matthias, et al. "EWA splatting." IEEE Transactions on Visualization and Computer Graphics 8.3 (2002): 223-238. [Bulò2024] S. R. Bulò, L. Porzi, P. Kontschieder, “Revising Densification in Gaussian Splatting,“ ECCV, 2024 [Cheng2024] J Chung, J. Oh, K. M. Lee, “Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images”, CVPRW, 2024 [Dahmani2024] H Dahmani, M Bennehar, N Piasco, L Roldao, D Tsishkou, Swag: Splatting in the wild images with appearance-conditioned gaussians,” ECCV, 2024 [Foroutan2024] Y. Foroutan, D. Rebain, K. M. Yi, A. Tagliasacchi, Evaluating Alternatives to SFM Point Cloud Initialization for Gaussian Splatting, arXiv, 2024 [Guedon2024] A. Guedon V. Lepetit, “SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering, CVPR, 2024. [Huang2024] B. Huang, Z. Yu, A Chen, A. Geiger, S. Gao, “2DGS: 2D Gaussian Splatting for Geometrically Accurate Radiance Fields, SIGGRAPH, 2024. [Jung2024] J. Jung, J. Han, H. An, J. Kang, S. Park, S. Kim, “RAIN-GS: Relaxing Accurate Initialization Constraint for 3D Gaussian Splatting,” arXiv, 2024. [Keetha2024] N. Keetha, J. Karhade, K. M. Jatavallabhula, G. Yang, S. Scherer, D. Ramanan, J. Luiten, “SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM,” CVPR, 2024 [Kulhanek2024] J. Kulhanek, S. Peng, Z. Kukelova, Marc Pollefeys, T. Sattler, “WildGaussians 3D Gaussian Splatting in the Wild,” NeurIPS 2024. [Niemeyer2025] M. Niemeyer, F. Manhardt, M. Rakotosaona, M. Oechsle, D. Duckworth, R. Gosula, K. Tateno, J. Bates, D. Kaeser, F. Tombari, “RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS,” 3DV, 2025. [Sabour2024] S. Sabour, L. Goli, G. Kopanas, M. Matthews, D. Lagun, L. Guibas, A. Jacobson, D. J. Fleet, A. Tagliasacchi, “SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting,” arXiv, 2024. [Zhao2024] L. Zhao, P. Wang, P. Liu, “BAD-Gaussians: Bundle-Adjusted Deblur Gaussian Splatting,” ECCV, 2024, [Matsuki-Murai24] Matsuki, H., Murai, R., Kelly, P. H., & Davison, A. J. (2024). Gaussian splatting slam. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18039-18048). [Sola2018] Sola, J., Deray, J., & Atchuthan, D. (2018). A micro Lie theory for state estimation in robotics. arXiv preprint arXiv:1812.01537. 61