論文解説　CVPR2022 NeRF関連

論⽂解説 CVPR2022 NeRF関連 Takehiro Matsuda

2 CVPRの近年の注⽬Keywordの遷移【学会聴講報告】CVPR2022からみるVision最先端トレンドより https://www.youtube.com/watch?app=desktop&v=SeioHA14ND8&feature=youtu.be

3 NeRF デモ動画 https://www.matthewtancik.com/nerf 対象の任意視点からの画像を⾼精細に得られる。ぱっと⾒て気になるレベルのHoleやArtifactが画像に表れていない。

4 3次元情報の表現ボクセルピクセルを3次元に拡張 ◦ 2次元画像処理からの拡張が容易 × メモリ消費量が多く、2563くらいが限界点群点の集合で3次元シーンを表現
◦ ボクセルよりコンパクト(物体表⾯のみを表現) × ⾯を表現できない × DNNで扱うのがやや難しい

5 3次元情報の表現メッシュ三⾓形(多⾓形)の貼り合わせで3Dシーンを表現 ◦ メモリが少なくて良い × メッシュの張り合わせが職⼈的 × DNNで扱うのが難しい
Neural Field 3次元座標pをニューラルネットワークfに与え、f(p)がモノがあるか、⾊、etc.などを表すようにする。 ◦ コンパクトかつ柔軟(NNは形状が複雑なところの表現に多数のパラメータを使おうとするはず) ◦ DNNと組み合わせるのが容易 × レンダリングが遅い(多数の点をDNNで推論する必要がある) × 与えた範囲(シーン)ごとにネットワークを学習する必要がある × ⼈⼿での編集が難しい

6 NeRF

7 NeRF Neural Radiance Field 𝜎 = 𝑁𝑁!(𝑥, 𝑦, 𝑧)
𝑐 = 𝑁𝑁"(𝑥, 𝑦, 𝑧, 𝜃, 𝜙) 3D座標モノがありそう度 3D座標, 視線⽅向⾊ In essence, they take the DeepSDF architecture but regress not a signed distance function, but density and color.

8 NeRFによる⾃由視点の再現液晶ディスプレイの映り込み、反射が視線により変わることを再現できている

9 NeRF flow ① 学習画像からピクセルを選ぶ ② ピクセルを通る光線上でサンプリングし、その点のモノがある度と⾊をNNにクエリする。 ③ カメラから出発し、ピクセルに向かって進み、どのあた
りでモノにぶつかるかの確率分布を計算する ④ ピクセルの⾊の期待値を計算する ⑤ GTのピクセルの⾊に近づくようにNNの学習を進める ① ② ③ ④ ⑤

10 NeRF in CVPR 2022 • Block-NeRF NeRFによる⼤規模な範囲の⽣成(サンフランシシコのある地区) • Plenoxels
ニューラルネットワークを使わずに微分可能ボリュームレンダリングのアーキテクチャで⾼速な⾃由視点画像⽣成が可能 CVPR2022で発表された2つの論⽂を紹介する

11 Block-NeRF デモ動画 https://waymo.com/research/block-nerf/

12 Block-NeRF Waymo(Google) carの360度Viewで⼤量の画像を撮影する。対象：San Francisco Alamo Square Neighbor (960x570m)
各Block-NeRFは下記で学習 18-28分のドライブ 38-48の異なる⾛⾏データ 64575-108216画像

13 Block-NeRF Architecture NeRF-W(NeRF in the Wild)の⼿法導⼊天候やライティングの変化などのAppearanceの違いを別にできる Lighting
and whether change Exposure change mip-NeRFをベースにする: incorporating anti-aliasing for multiscale rendering 観光客がそれぞれ撮影したような画像から学習できる⼿法 Appearance Embedding, Exposure Embeddingの導⼊

14 Appearance Embedding 推論時に変化させて、レンダリングも可能 Appearance Embeddingにより⽇時の違いがあってもクリアなレンダリングを⾏える。

15 移動物体へのマスクセグメンテーションモデル(Panoptic-deeplab)で移動物体(⾞や⼈)を検出しマスクをかける

16 Block-NeRFsの統合街全体の画像再現をするため、35個のBlock-NeRFsを統合する。 Visibilityを出⼒するネットワーク VisibilityがOKのNeRFをAppearnce Matthingをした上で、距離の逆数の重みで統合する

17 Ablation study Learned pose refinement 原論⽂のReferences[34,59,66,70]

18 Plenoxels デモ動画

19 Plenoxels Our results show that the key component in
NeRF is the differentiable volumetric rendering, not the neural network. NeRFでは1GPUで学習に1⽇以上、レンダリングに1フレームあたり30秒以上かかる

20 Plenoxels Flow Voxel opacitiesとSpherical harmonic coefficientsを最適化する。 Plenoxels represent a
scene as a sparse 3D grid with spherical harmonics. Plenoptic voxels: 近傍のVoxel 球⾯調和関数：各視点での⾊の⾒え⽅を表現する関数とする？ 3次元での近傍からの補間処理

21 Optimization 推論画像とGTのMSE RMSPropを⽤いて最適化計算 ∆2x(v, d) shorthand for the squared
difference between the dth value in voxel v := (i, j, k) and the dth value in voxel (i + 1, j, k) Total Variation正則化

22 Result 8 synthetic scenes 8 real, forward- facing scenes
4 real, 360° scenes

23 参考⽂献 • NeRF https://www.matthewtancik.com/nerf • Block-NeRF https://waymo.com/research/block-nerf/ • Plenoxels
https://alexyu.net/plenoxels/ • SSII2022 [SS1] ニューラル3D表現の最新動向〜ニューラルネットでなんでも表せる？？〜 https://www.slideshare.net/SSII_Slides/ssii2022-ss1-3d • 【学会聴講報告】CVPR2022からみるVision最先端トレンド https://www.youtube.com/watch?app=desktop&v=SeioHA14ND8&feature=youtu.be • NeRF at CVPR 2022 https://dellaert.github.io/NeRF22/

論文解説　CVPR2022 NeRF関連

論文解説　CVPR2022 NeRF関連

koharite

More Decks by koharite

Other Decks in Research

Featured

Transcript

論⽂解説 CVPR2022 NeRF関連 Takehiro Matsuda

2 CVPRの近年の注⽬Keywordの遷移【学会聴講報告】CVPR2022からみるVision最先端トレンドより https://www.youtube.com/watch?app=desktop&v=SeioHA14ND8&feature=youtu.be

3 NeRF デモ動画 https://www.matthewtancik.com/nerf 対象の任意視点からの画像を⾼精細に得られる。ぱっと⾒て気になるレベルのHoleやArtifactが画像に表れていない。

4 3次元情報の表現ボクセルピクセルを3次元に拡張 ◦ 2次元画像処理からの拡張が容易 × メモリ消費量が多く、2563くらいが限界点群点の集合で3次元シーンを表現

5 3次元情報の表現メッシュ三⾓形(多⾓形)の貼り合わせで3Dシーンを表現 ◦ メモリが少なくて良い × メッシュの張り合わせが職⼈的 × DNNで扱うのが難しい

6 NeRF

7 NeRF Neural Radiance Field 𝜎 = 𝑁𝑁!(𝑥, 𝑦, 𝑧)

8 NeRFによる⾃由視点の再現液晶ディスプレイの映り込み、反射が視線により変わることを再現できている

9 NeRF flow ① 学習画像からピクセルを選ぶ ② ピクセルを通る光線上でサンプリングし、その点のモノがある度と⾊をNNにクエリする。 ③ カメラから出発し、ピクセルに向かって進み、どのあた

10 NeRF in CVPR 2022 • Block-NeRF NeRFによる⼤規模な範囲の⽣成(サンフランシシコのある地区) • Plenoxels

11 Block-NeRF デモ動画 https://waymo.com/research/block-nerf/

12 Block-NeRF Waymo(Google) carの360度Viewで⼤量の画像を撮影する。対象：San Francisco Alamo Square Neighbor (960x570m)

13 Block-NeRF Architecture NeRF-W(NeRF in the Wild)の⼿法導⼊天候やライティングの変化などのAppearanceの違いを別にできる Lighting

14 Appearance Embedding 推論時に変化させて、レンダリングも可能 Appearance Embeddingにより⽇時の違いがあってもクリアなレンダリングを⾏える。

15 移動物体へのマスクセグメンテーションモデル(Panoptic-deeplab)で移動物体(⾞や⼈)を検出しマスクをかける

16 Block-NeRFsの統合街全体の画像再現をするため、35個のBlock-NeRFsを統合する。 Visibilityを出⼒するネットワーク VisibilityがOKのNeRFをAppearnce Matthingをした上で、距離の逆数の重みで統合する

17 Ablation study Learned pose refinement 原論⽂のReferences[34,59,66,70]

18 Plenoxels デモ動画

19 Plenoxels Our results show that the key component in

20 Plenoxels Flow Voxel opacitiesとSpherical harmonic coefficientsを最適化する。 Plenoxels represent a

21 Optimization 推論画像とGTのMSE RMSPropを⽤いて最適化計算 ∆2x(v, d) shorthand for the squared

22 Result 8 synthetic scenes 8 real, forward- facing scenes

23 参考⽂献 • NeRF https://www.matthewtancik.com/nerf • Block-NeRF https://waymo.com/research/block-nerf/ • Plenoxels

論文解説 CVPR2022 NeRF関連

論文解説 CVPR2022 NeRF関連

More Decks by koharite

Other Decks in Research

Featured

Transcript

論文解説　CVPR2022 NeRF関連

論文解説　CVPR2022 NeRF関連