MobileNeRF（第59回CV勉強会＠関東発表資料）

第59回 CV勉強会@関東「CVPR2023読み会(前編)」 MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient
Neural Field Rendering on Mobile Architectures 2023/07/23 takmin

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード
技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

3 株式会社ビジョン＆ITラボはコンピュータビジョンとAI によって御社の「こまった」を助ける会社です

ビジョン技術の町医者 AIビジネスについて、気軽に相談できる

事業内容 1. Ｒ＆Ｄコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5.
ビジネス化コンサルティング 5

紹介する論文 7  MobileNeRF: Exploiting the Polygon Rasterization Pipeline for
Efficient Neural Field Rendering on Mobile Architectures  Zhiqin Chen(1,2), Thomas Funkhouser(1), Peter Hedman(1), Andrea Tagliasacchi(1,2,3)  1.Google Research, 2.Simon Fraser University, 3.University of Toronto  要約：めっちゃレンダリングが早いNeRF  https://mobile-nerf.github.io/  モバイルブラウザでさくさく動く

NeRFのレンダリングの流れ 8  焦点と画像平面上の点を結ぶレイ上をサンプリング

NeRFのレンダリングの流れ 9  焦点と画像平面上の点を結ぶレイ上をサンプリング  サンプリングされた各点の３次元座標(𝑥, 𝑦, 𝑧)とレイの方向(𝜃, 𝜙)をMLP
𝐹Θ (𝜃, 𝜙)へ入力

NeRFのレンダリングの流れ 10  焦点と画像平面上の点を結ぶレイ上をサンプリング  サンプリングされた各点の３次元座標(𝑥, 𝑦, 𝑧)とレイの方向(𝜃, 𝜙)をMLP
𝐹Θ (𝜃, 𝜙)へ入力  MLP 𝐹Θ (𝜃, 𝜙)は色𝐜(R,G,B)と密度𝜎を出力

NeRFのレンダリングの流れ 11  算出した色𝐜𝑖 に密度𝜎𝑖 を元に重みをつけて、レイ上で和を取ることで色෠ C 𝐫 を算出 ෠
C 𝐫 = ෍ 𝑖=1 𝑁 𝑇𝑖 1 − exp(−𝜎𝑖 𝛿𝑖 ) 𝐜𝑖 𝑇𝑖 = exp − ෍ 𝑗=1 𝑖−1 𝜎𝑖 𝛿𝑖 𝛿𝑖 = 𝑡𝑖+1 − 𝑡𝑖 サンプリング間隔画素𝐫の色レイ上の点𝑖までの透明度

NeRFのレンダリングの流れ 12  レイ上の各点でMLPの計算が必要なため、レンダリングに非常に時間がかかる。

Related Work (SNeRG) 13  Hedman, P., Srinivasan, P. P.,
Mildenhall, B., Barron, J. T., & Debevec, P., Baking Neural Radiance Fields for Real-Time View Synthesis. ICCV2021  NeRFのリアルタイムレンダリング  疎なVoxel Gridごとのパラメータを事前計算し、レンダリング時にレイ方向に依存したパラメータのみ計算

Mildenhall, B., Barron, J. T., & Debevec, P., Baking Neural Radiance Fields for Real-Time View Synthesis. ICCV2021  NeRFのリアルタイムレンダリング  疎なVoxel Gridごとのパラメータを事前計算し、レンダリング時にレイ方向に依存したパラメータのみ計算位置に依存したパラメータの事前計算色特徴量

Mildenhall, B., Barron, J. T., & Debevec, P., Baking Neural Radiance Fields for Real-Time View Synthesis. ICCV2021  NeRFのリアルタイムレンダリング  疎なVoxel Gridごとのパラメータを事前計算し、レンダリング時にレイ方向に依存したパラメータのみ計算視線方向に依存したパラメータの計算（レンダリング時）色

MobileNeRF概要 16  なんでレンダリングが早いの？  GPUのレンダリングパイプラインを最大限活用している。  どうやって？  レンダリングをNeRFで使用されるボリュームレンダリングでは
なく、メッシュとテクスチャを使用  遅延シェーダー（differed shader）を使用することで、事前計算した特徴量を色へ変換  SNeRGより早い？  SNeRGではレイ上で特徴量や色の重み付き和を求める必要があるため、GPUのパイプラインを使った並列化が出来ず、メモリ使用量が大きい

GPUのレンダリングパイプライン概要 17 頂点データ頂点処理 • モデルの回転・移動ラスタライゼーション
• 画素と三角メッシュとの対応フラグメント処理 • 各画素の色を決定フレームバッファ Vertex Shader Fragment Shader MobileNeRFは遅延シェーダーを利用

遅延シェーダー（differed shader） 18  Forword Rendering  オブジェクトごとにライティングなどを計算して描画。  重なったオブジェクトの計算結果が捨てられる。
 Differed Rendering  色の計算に必要な各パラメータ（色、法線、奥行等）を一旦G- Bufferへ格納し、その後各画素ごとに色を計算する。

レンダリングの流れ 19 MobileNeRFにおけるオブジェクトの表現（三角メッシュ＋特徴量テクスチャ）

レンダリングの流れ 20 カメラの位置を元に特徴量を画素へマッピング

レンダリングの流れ 21 MLPで各画素ごとの色を推定（Differed Rendering） GLSLを使用してFragment Shader上にMLPを実装

トレーニングの流れ 22 1. 空間をポリゴンメッシュで初期化し、レイと交差するメッシュに対して、不透明度、特徴量、色を学習（Stage1） 2. 不透明度を連続値から二値へ変換（Stage2） 3. 疎なポリゴンメッシュと、不透明度および特徴量を元にテクスチャマップを生成し、遅延シェーダー上のMLPで
レンダリング(Stage3)

Training Stage1 23 メッシュの初期化カメラ位置パターン（データセット）ごとのメッシュ初期化方法頂点の初期位置はVoxelの中心

Training Stage1 24 ３つのMLPを使用してパラメータ算出不透明度特徴量色不透明度特徴量色
位置位置特徴量視線方向

Training Stage1 25 ３つのMLPを使用してパラメータ算出不透明度特徴量色不透明度特徴量色
位置位置特徴量視線方向 𝛼𝑘 = 1 − exp −𝜎𝑘 𝛿𝑘 NeRFでは密度𝜎𝑘 をから不透明度𝛼𝑘 算出

Training Stage1 26 レイとメッシュの交点でパラメータ算出不透明度特徴量色不透明度特徴量色

Training Step1 27 レイとメッシュの交点でパラメータ算出不透明度特徴量色画素ごとの色の２乗誤差を損失関数とする（通常のNeRFと同じ）レイとメッシュの交点の色を積分

Training Stage1 28 不透明度特徴量色以下の損失関数を最小化するよう、３つのMLPと頂点位置を学習：画素の色についての損失 Distortion
Loss：色𝒄𝑘 の重みが疎になるような正則化項（詳しくはMip-NeRF を参照) 頂点がボクセルの外へ出ないようにするための正則化項

Training Stage1: Quadrature 29 不透明度特徴量色計算に使用するメッシュの数を減らしたい Acceleration Grid
𝓖 （=各VoxelにおいてGeometryが存在しそうかというスコア）を導入

Training Stage1: Quadrature 30 不透明度特徴量色計算に使用するメッシュの数を減らしたいレイが通過するVoxel Grid以外を除去

Training Stage1: Quadrature 31 不透明度特徴量色 Acceleration Gridが低いもの（Geometryが存在しなさそう）を除去

Training Stage1: Quadrature 32 不透明度特徴量色残ったグリッド内のメッシュとレイの交点求める

Training Stage1: Quadrature 33  Acceleration Grid 𝒢の学習不透明度と近くなるように疎かつ滑らかになるように
stop gradient L1ノルムの正則化項を加えると疎になりやすい(Lasso)

Training Stage2: Binarized Training 34  不透明度𝛼𝑘 を連続値から[0,1]の二値へ変換  遅延シェーダーは半透明を扱えないため
𝛼𝑘 を二値 ො 𝛼𝑘 へ変換連続値二値 Stop Gradient 𝛼𝑘 > 0.5なら 1.0

𝛼𝑘 を二値 ො 𝛼𝑘 へ変換 ො 𝛼𝑘 から画素の色 ෠ 𝐂 𝐫 を算出

𝛼𝑘 を二値 ො 𝛼𝑘 へ変換 ො 𝛼𝑘 から画素の色 ෠ 𝐂 𝐫 を算出二値の不透明度から算出した色 ෠ 𝐂 𝐫 とGround Truthとの二乗誤差損失

𝛼𝑘 を二値 ො 𝛼𝑘 へ変換 ො 𝛼𝑘 から画素の色 ෠ 𝐂 𝐫 を算出二値の不透明度から算出した色 ෠ 𝐂 𝐫 とGround Truthとの二乗誤差損失学習を安定させるために、連続値𝛼𝑘 での色の二乗誤差損失を加算

Stage1と同様に３つのMLPと頂点位置を学習

Stage1と同様に３つのMLPと頂点位置を学習収束したら、二値の不透明度を用いた色の二乗誤差のみで不透明度以外の２つのMLPを学習

Training Stage3: Discretization 40 1. 学習画像のカメラ位置から見える四角メッシュ（三角 x2）のみ保存（OBJ形式） 2. 各四角メッシュにK x
Kサイズのテクスチャパッチを生成 3. テクスチャパッチの各座標を三次元座標へ変換 4. 三次元座標に対応する不透明度𝛼𝑘 、および特徴量𝐟𝑘 をパッチ上の座標へ割り当て 5. パッチに割り当てられた不透明度𝛼𝑘 、および特徴量𝐟𝑘 を量子化してPNGファイルとして保存

Training Stage3: Discretization 41 1. 学習画像のカメラ位置から見える四角メッシュ（三角x2）のみ保存（OBJ形式） *メッシュは対象の3D形状を正確に表しているわけではない

Training Stage3: Discretization 42 2. 各四角メッシュにK x Kサイズのテクスチャパッチを生成

Training Stage3: Discretization 43 𝒑𝑘 𝒑𝑘 3. テクスチャパッチの各座標を三次元座標へ変換

Training Stage3: Discretization 44 𝒑𝑘 𝒑𝑘 𝐟𝑘 𝛼𝑘 4. 三次元座標に対応する不透明度𝛼𝑘
、および特徴量𝐟𝑘 をパッチ上の座標へ割り当て

Training Stage3: Discretization 45 𝒑𝑘 𝒑𝑘 𝐟𝑘 𝛼𝑘 5. パッチに割り当てられた不透明度𝛼𝑘
、および特徴量𝐟𝑘 を量子化してPNGファイルとして保存 Save

Rendering 46 1. Zバッファを使用して、すべてのメッシュを元に2M x 2Nピクセルの特徴画像を生成  12チャネル＝特徴量8 +
不透明度1 + 視線方向３ 2. Anti-aliasingのために2x2領域の近傍特徴量を線形変換（平均）し、M x Nピクセルの特徴画像生成 3. Fragment Shader上に実装した小さなMLPへ特徴画像を入力して、各画素の色を算出  並列計算される

実験 47  実験環境  “8 synthetic 360°scenes”, “8 forward-facing
scenes”, “5 unbounded 360°outdoor scenes”の3つのデータセット  以下のデバイス上で動作試験

実験 48  レンダリング速度とメモリ効率の比較

実験 49  レンダリング品質  SNeRGとほぼ同じ

実験 50  レンダリング品質  SNeRGとほぼ同じ拡大すると SNeRGは平滑化しすぎる傾向

実験 51  Ablation Study  レンダリング品質

実験 54  Ablation Study  レンダリング速度

実験 55  Limitation

実験 56  データをメッシュとテクスチャで表現しているので、シーンの編集が可能

まとめ 57  メッシュとテクスチャを用いて、GPUパイプライン上で高速にレンダリングできるMobileNeRFの提案  既存手法(SNeRG)と比べて10倍速く、モバイルブラウザでも高速に動く  Volumetric
Textureの代わりにSurface Textureを用いることで省メモリ  Limitation  Surfaceは対象の3D形状を正確に表しているわけではない。  半透明物体は扱えない  テクスチャの解像度で表現できないくらいズームすると、画像がぼやける

MobileNeRF（第59回CV勉強会＠関東発表資料）

MobileNeRF（第59回CV勉強会＠関東発表資料）

More Decks by Takuya MINAGAWA

Other Decks in Technology

Featured

Transcript