Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文輪読会 第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"

AcademiX
September 30, 2023
180

論文輪読会 第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"

AcademiX が開催した 第23回 論文輪読会 資料

日時:2023/09/30
論文タイトル:Depth-supervised NeRF: Fewer Views and Faster Training for Free

<概要>
NeRFでは50枚程度の画像と数日の学習時間と学習コストが高かった。DS NeRFではその学習コストを下げるためにSfM(Structure from Motion)で得たSparseな3D mapを利用して学習の補助をおこなった

AcademiX

September 30, 2023
Tweet

More Decks by AcademiX

Transcript

  1. • ここに出てくる図のほとんどは以下の論文から引用したものです。 Paper:「NeRF: Representing Scenes as Neural Radiance Fields for

    View Synthesis」 Author : Ben Mildenhall and Pratul P. Srinivasan and Matthew Tancik and Jonathan T. Barron and Ravi Ramamoorthi and Ren Ng year : 2020 Journal :ECCV Paper: 「Depth-supervised NeRF: Fewer Views and Faster Training for Free」 Author : Deng, Kangle and Liu, Andrew and Zhu, Jun-Yan and Ramanan, Deva year : 2022 Journal :CVPR 2 Project Page : https://www.cs.cmu.edu/~dsnerf/
  2. Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

    関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価結果 ③ 学習速度 6. 最後に 3
  3. Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

    関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価結果 ③ 学習速度 6. 最後に 4
  4. NeRFのおさらい • 全体図 hierarchical sampling volume density along the ray

    画像に写っているRGBを予測 (x, y, z) は3次元の場所 (θ, Φ) rayの方向 σはvolume density 6
  5. NeRFのおさらい(目的関数) ここで、𝑇 𝑡 = 𝑒𝑥𝑝 − ∫ !! ! 𝜎

    𝒓 𝑠 𝑑𝑠 𝐶 𝒓 = ∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝒅 : カメラの方向 𝑇 𝑡 : 透過率 𝜎 𝒓 𝑡 : volume density 𝒄 𝒓 𝑡 , 𝒅 : tの位置での(r,g,b) ray : 𝒓 𝑡 = 𝒐 + 𝑡𝒅 • 数式 C (r): volume rendering (画像に写る色を決める) 7
  6. Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

    関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価結果 ③ 学習速度 6. 最後に 8
  7. NeRFの学習コスト • 学習に時間がかかる (NVIDIA V100 GPU上で1~2日かかった。) • 画像の枚数が多い (学習に利用する枚数が下記 ,

    about 50 images / scene) 9 (左)合成画像のデータセットで学習 (半球上) 479枚を学習、1000枚をテストデータとして評価 (右)正面から撮影した画像のデータセット 20 ~ 62枚の画像 この1/8をホールドアウト
  8. DS-NeRF : 関連研究 • metaNeRF(メタ学習を行う) and pixelNeRF テストデータにしかない情報を学習データから得られるdata-driven priors (データ駆動型の事前分布?)で埋める方法

    Þ 学習データとテストデータの分布がかけ離れているとうまくいかない • IBRNet Transformerを使用してVolume density σを予測する。 • MVSNeRF 3枚の画像から画像に写る物体の曲面を作成し、その曲面をNeRFに変換 する。 10 ※メタ学習 • 関連する他のデータから学習の仕方を学習することで,目的のタスクにおいて,少数の学習データしかなくて も,性能を高める
  9. DS-NeRF : 損失関数 𝑇 𝑡 = 𝑒𝑥𝑝 − 3 !!

    ! 𝜎 𝒓 𝑠 𝑑𝑠 𝐶 𝒓 = ∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝒓 𝑡 = 𝒐 + 𝑡𝒅 • 数式 T(t)は、物体に当たった後、それ以降 Tの値が低くなる。 つまり、初めに当たった物体の色が優先して出力される。 12 𝒅 : カメラの方向 𝑇 𝑡 : 透過率 𝜎 𝒓 𝑡 : volume density 𝒄 𝒓 𝑡 , 𝒅 : tの位置での(r,g,b)
  10. DS-NeRF : 損失関数 • NeRFの数式 離散化 サンプリングしたtに対し、以下のように式を離散化。 𝐶 𝒓 =

    ∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝐶 𝒓 = , 456 7 𝑇4 1 − exp(−𝜎4 𝛿4 ) 𝒄4 14 𝒉(𝒕) = 𝑇 𝑡 𝜎 𝒓 𝑡 ≈ 𝑇! 1 − exp(−𝜎! 𝛿! )
  11. DS-NeRF : 損失関数 16 ℒ"#$!% = 𝔼&"∈(# 3 log ℎ(𝑡)

    exp − (𝑡 − 𝐷)* )+ 2𝜎) + 𝑑𝑡 ≈ 𝔼&"∈(# F log ℎ, exp − (𝑡 − 𝐷)* )+ 2𝜎) + ∆𝑡 𝔼𝔻"# 𝐾𝐿 𝛿 𝑡 − 𝔻)* ||ℎ)*(𝑡) = 𝐾𝐿 ℕ 𝐷)* , 𝜎) ||ℎ)*(𝑡) + 𝑐𝑜𝑛𝑠𝑡 • COLMAPで得られた3D sparse point Xを深度ラベルとして学習 h関数と深度Dのデルタ関数のKL 距離 ℒ = ℒ"#$#% + ℒ&'()* • 全体
  12. Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

    関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価 ③ 学習速度 6. 最後に 17
  13. 出力結果と評価 データセット • DTU ◦ 2014年にMVSの評価のために作成されたデータセット ◦ 参照: http://roboimagedata.compute.dtu.dk/?page_id=36 •

    NeRF Real ◦ NeRFの論文で用いられた画像データセット ◦ 参照: https://www.matthewtancik.com/nerf • Redwood 3dscan ◦ さまざまな物体のRGB-Dデータを集めたデータセット ◦ 参照: http://redwood-data.org/3dscan/ 18
  14. 出力結果と評価 定量的に評価 • PSNR(ピーク信号対雑音比) ◦ 画質の再現性に影響を与える、信号がとりうる最大パワー(画像では255)と劣化をもたらすノ イズ(Ground truthと出力画像のMSE)の比率で評価 • SSIM

    ◦ 画素値、コントラスト、構造の変化を評価する指標 ◦ PSNRの問題点(人の感覚とマッチしていない評価)を改善するために考えられた指標 • LPIPS ◦ 学習済みの画像分類ネットワークの畳み込み層が出力する特徴量を基にした評価 ◦ より人の感覚に近い評価ができる指標 21
  15. Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

    関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価 ③ 学習速度 6. 最後に 26
  16. 最後に • Overfitting NeRF can overfit to a small number

    of input views by learning degenerate 3D geometries. Adding depth supervision can assist NeRF to disambiguate geometry and render better novel views. • Faster Training On a single RTX A5000, a training loop of DS-NeRF takes ∼ 362.4 ms/iter while NeRF needs ∼ 359.8 ms/iter. Thus in the 5-view case, DS-NeRF achieves NeRF’s peak test PSNR around 13 hours faster. • Loss function This allows us to integrate depth supervision to many NeRF-based methods and observe significant benefits. 29