論文輪読会第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"

https://www.academix.jp/ AcademiX 論文輪読会 Depth-supervised NeRF: Fewer Views and Faster Training
for Free 東京大学大学院 Yuta Koda 2023/9/30

• ここに出てくる図のほとんどは以下の論文から引用したものです。 Paper:「NeRF: Representing Scenes as Neural Radiance Fields for
View Synthesis」 Author : Ben Mildenhall and Pratul P. Srinivasan and Matthew Tancik and Jonathan T. Barron and Ravi Ramamoorthi and Ren Ng year : 2020 Journal :ECCV Paper: 「Depth-supervised NeRF: Fewer Views and Faster Training for Free」 Author : Deng, Kangle and Liu, Andrew and Zhu, Jun-Yan and Ramanan, Deva year : 2022 Journal :CVPR 2 Project Page : https://www.cs.cmu.edu/~dsnerf/

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①
関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価結果 ③ 学習速度 6. 最後に 3

NeRFのおさらい 100枚の画像学習新しい視点の画像を生成 5

NeRFのおさらい • 全体図 hierarchical sampling volume density along the ray
画像に写っているRGBを予測 (x, y, z) は3次元の場所 (θ, Φ) rayの方向 σはvolume density 6

NeRFのおさらい(目的関数) ここで、𝑇 𝑡 = 𝑒𝑥𝑝 − ∫ !! ! 𝜎
𝒓 𝑠 𝑑𝑠 𝐶 𝒓 = ∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝒅 : カメラの方向 𝑇 𝑡 : 透過率 𝜎 𝒓 𝑡 : volume density 𝒄 𝒓 𝑡 , 𝒅 : tの位置での(r,g,b) ray : 𝒓 𝑡 = 𝒐 + 𝑡𝒅 • 数式 C (r): volume rendering (画像に写る色を決める) 7

NeRFの学習コスト • 学習に時間がかかる (NVIDIA V100 GPU上で1~2日かかった。) • 画像の枚数が多い (学習に利用する枚数が下記 ,
about 50 images / scene) 9 (左)合成画像のデータセットで学習 (半球上) 479枚を学習、1000枚をテストデータとして評価 (右)正面から撮影した画像のデータセット 20 ~ 62枚の画像この1/8をホールドアウト

DS-NeRF : 関連研究 • metaNeRF(メタ学習を行う) and pixelNeRF テストデータにしかない情報を学習データから得られるdata-driven priors (データ駆動型の事前分布?)で埋める方法
Þ 学習データとテストデータの分布がかけ離れているとうまくいかない • IBRNet Transformerを使用してVolume density σを予測する。 • MVSNeRF ３枚の画像から画像に写る物体の曲面を作成し、その曲面をNeRFに変換する。 10 ※メタ学習 • 関連する他のデータから学習の仕方を学習することで，目的のタスクにおいて，少数の学習データしかなくても，性能を高める

DS-NeRF : Sparseな3D map 11

DS-NeRF : 損失関数 𝑇 𝑡 = 𝑒𝑥𝑝 − 3 !!
! 𝜎 𝒓 𝑠 𝑑𝑠 𝐶 𝒓 = ∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝒓 𝑡 = 𝒐 + 𝑡𝒅 • 数式 T(t)は、物体に当たった後、それ以降 Tの値が低くなる。つまり、初めに当たった物体の色が優先して出力される。 12 𝒅 : カメラの方向 𝑇 𝑡 : 透過率 𝜎 𝒓 𝑡 : volume density 𝒄 𝒓 𝑡 , 𝒅 : tの位置での(r,g,b)

DS-NeRF : 損失関数 13

DS-NeRF : 損失関数 • NeRFの数式離散化サンプリングしたtに対し、以下のように式を離散化。 𝐶 𝒓 =
∫ -𝒏 -𝒇 𝑇 𝑡 𝜎 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡 𝐶 𝒓 = , 456 7 𝑇4 1 − exp(−𝜎4 𝛿4 ) 𝒄4 14 𝒉(𝒕) = 𝑇 𝑡 𝜎 𝒓 𝑡 ≈ 𝑇! 1 − exp(−𝜎! 𝛿! )

DS-NeRF : 損失関数 15 全ての視点において各ピクセルはUnimodal

DS-NeRF : 損失関数 16 ℒ"#$!% = 𝔼&"∈(# 3 log ℎ(𝑡)
exp − (𝑡 − 𝐷)* )+ 2𝜎) + 𝑑𝑡 ≈ 𝔼&"∈(# F log ℎ, exp − (𝑡 − 𝐷)* )+ 2𝜎) + ∆𝑡 𝔼𝔻"# 𝐾𝐿 𝛿 𝑡 − 𝔻)* ||ℎ)*(𝑡) = 𝐾𝐿 ℕ 𝐷)* , 𝜎) ||ℎ)*(𝑡) + 𝑐𝑜𝑛𝑠𝑡 • COLMAPで得られた3D sparse point Xを深度ラベルとして学習 h関数と深度Dのデルタ関数のKL 距離 ℒ = ℒ"#$#% + ℒ&'()* • 全体

関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価 ③ 学習速度 6. 最後に 17

出力結果と評価データセット • DTU ◦ 2014年にMVSの評価のために作成されたデータセット ◦ 参照: http://roboimagedata.compute.dtu.dk/?page_id=36 •
NeRF Real ◦ NeRFの論文で用いられた画像データセット ◦ 参照: https://www.matthewtancik.com/nerf • Redwood 3dscan ◦ さまざまな物体のRGB-Dデータを集めたデータセット ◦ 参照: http://redwood-data.org/3dscan/ 18

出力結果と評価 : 出力結果 19

出力結果と評価 : 出力結果 20

出力結果と評価定量的に評価 • PSNR(ピーク信号対雑音比) ◦ 画質の再現性に影響を与える、信号がとりうる最大パワー(画像では255)と劣化をもたらすノイズ(Ground truthと出力画像のMSE)の比率で評価 • SSIM
◦ 画素値、コントラスト、構造の変化を評価する指標 ◦ PSNRの問題点(人の感覚とマッチしていない評価)を改善するために考えられた指標 • LPIPS ◦ 学習済みの画像分類ネットワークの畳み込み層が出力する特徴量を基にした評価 ◦ より人の感覚に近い評価ができる指標 21

出力結果と評価 : データセットごとの評価 22

出力結果と評価 : Ablation Study 25

関連研究 ② Sparseな3D map ③ 損失関数 5. 出力結果と評価 ① 出力結果 ② データセットごとの評価 ③ 学習速度 6. 最後に 26

出力結果と評価 : 学習速度 27

出力結果と評価 : Depth Error 28

最後に • Overfitting NeRF can overfit to a small number
of input views by learning degenerate 3D geometries. Adding depth supervision can assist NeRF to disambiguate geometry and render better novel views. • Faster Training On a single RTX A5000, a training loop of DS-NeRF takes ∼ 362.4 ms/iter while NeRF needs ∼ 359.8 ms/iter. Thus in the 5-view case, DS-NeRF achieves NeRF’s peak test PSNR around 13 hours faster. • Loss function This allows us to integrate depth supervision to many NeRF-based methods and observe significant benefits. 29

最後に 30

最後に 31

論文輪読会第23回 "Depth-supervised NeRF: Fewer Views...

論文輪読会第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"

AcademiX

More Decks by AcademiX

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 Depth-supervised NeRF: Fewer Views and Faster Training

• ここに出てくる図のほとんどは以下の論文から引用したものです。 Paper:「NeRF: Representing Scenes as Neural Radiance Fields for

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

NeRFのおさらい 100枚の画像学習新しい視点の画像を生成 5

NeRFのおさらい • 全体図 hierarchical sampling volume density along the ray

NeRFのおさらい(目的関数) ここで、𝑇 𝑡 = 𝑒𝑥𝑝 − ∫ !! ! 𝜎

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

NeRFの学習コスト • 学習に時間がかかる (NVIDIA V100 GPU上で1~2日かかった。) • 画像の枚数が多い (学習に利用する枚数が下記 ,

DS-NeRF : 関連研究 • metaNeRF(メタ学習を行う) and pixelNeRF テストデータにしかない情報を学習データから得られるdata-driven priors (データ駆動型の事前分布?)で埋める方法

DS-NeRF : Sparseな3D map 11

DS-NeRF : 損失関数 𝑇 𝑡 = 𝑒𝑥𝑝 − 3 !!

DS-NeRF : 損失関数 13

DS-NeRF : 損失関数 • NeRFの数式離散化サンプリングしたtに対し、以下のように式を離散化。 𝐶 𝒓 =

DS-NeRF : 損失関数 15 全ての視点において各ピクセルはUnimodal

DS-NeRF : 損失関数 16 ℒ"#$!% = 𝔼&"∈(# 3 log ℎ(𝑡)

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

出力結果と評価データセット • DTU ◦ 2014年にMVSの評価のために作成されたデータセット ◦ 参照: http://roboimagedata.compute.dtu.dk/?page_id=36 •

出力結果と評価 : 出力結果 19

出力結果と評価 : 出力結果 20

出力結果と評価定量的に評価 • PSNR(ピーク信号対雑音比) ◦ 画質の再現性に影響を与える、信号がとりうる最大パワー(画像では255)と劣化をもたらすノイズ(Ground truthと出力画像のMSE)の比率で評価 • SSIM

出力結果と評価 : データセットごとの評価 22

出力結果と評価 : データセットごとの評価 23

出力結果と評価 : データセットごとの評価 24

出力結果と評価 : Ablation Study 25

Outline 1. 導入 2. NeRFのおさらい 3. NeRFの課題点 4. DS-NeRF ①

出力結果と評価 : 学習速度 27

出力結果と評価 : Depth Error 28

最後に • Overfitting NeRF can overfit to a small number

最後に 30

最後に 31

論文輪読会 第23回 "Depth-supervised NeRF: Fewer Views...

論文輪読会 第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"

More Decks by AcademiX

Featured

Transcript

論文輪読会第23回 "Depth-supervised NeRF: Fewer Views...

論文輪読会第23回 "Depth-supervised NeRF: Fewer Views and Faster Training for Free"