Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeRF: 3次元×機械学習入門 ー注目の3次元化技術をやさしく解説ー

Kenta Itakura
November 08, 2023

NeRF: 3次元×機械学習入門 ー注目の3次元化技術をやさしく解説ー

2023年11月9日に開催された、オンライン勉強会 studyCOでの登壇資料です。

講演概要
日常の世界は3次元によって構成されています。その3次元的な情報を2次元の画像から再構成する場合においても、機械学習は有効です。近年、NeRF (Neural Radiance Field) と呼ばれる手法が注目を集めています。この手法では、ある点をその角度で見たときの色情報などを学習します。それにより、カメラで取得した2次元の画像から対象の3次元的な情報を再構成することができます。さらに、NeRFを利用すれば、見る角度によって変わる、反射の具合などもうまく再現することができます。 機械学習を利用せず、対象の3次元情報を計測する従来の手法も紹介しつつ、それらとの違いや、それぞれの得意な点なども紹介します。なお、本勉強会では、以下のMildenhallら (2021)の論文に沿って説明を行います。

Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2021). Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 65(1), 99-106. https://arxiv.org/abs/2003.08934

イベントページ
https://studyco.connpass.com/event/299270/

Kenta Itakura

November 08, 2023
Tweet

More Decks by Kenta Itakura

Other Decks in Technology

Transcript

  1. ~2017年3月 京都大学農学部 (指導教員:近藤直 先生) 2017年4月~ 東京大学大学院 (指導教員:細井文樹 先生) 2019年4月~ 同

    博士課程 (指導教員:細井文樹 先生) 学術振興会特別研究員(DC1) シンガポール国立大客員研究員 マッセー大学客員研究員 シンガポール科学技術庁客員研究員 など 2020年8月 スキャン・エックス株式会社 インターンシップ ⇒ リードデータサイエンティスト 2023年10月 ImVisionLabs 株式会社 創業 自己紹介:板倉健太 2  出身:大阪
  2. 3次元データの利活用の広まり 8  考古学:遺跡の探索や記録に利用される 図出展 大阪大学考古学研究室:3次元形状データの統合 https://www.let.osaka-u.ac.jp/kouko/2007/syofukuziCDVer1.0/3d/3d_research.html • 互いの空間的な位置関係を確かめるといったことも可能 •

    航空機から3次元データを取得することで、マヤ文明の遺跡400ヶ所を発見した例 Inomata, T., Triadan, D., Vázquez López, V. A., Fernandez-Diaz, J. C., Omori, T., Méndez Bauer, M. B., ... & Nasu, H. (2020). Monumental architecture at Aguada Fénix and the rise of Maya civilization. Nature, 582(7813), 530-533.
  3. 3次元データについて 9  3次元を表すデータの形式は複数存在するが、その中でも3次元点群が有名  近年は、iPhoneやiPadにも3次元点群データを取得できるLiDARセンサーが搭載され、 私たちも気軽に3次元計測ができるようになってきた  本講演では、1) 3次元点群データやその取得方法について、2)

    これまでの取得方法とは異な る新たな3次元データの生成方法であるNeRFについて紹介します 画像出典: KDDIトビラ 「iPhone 12 Pro / Pro Maxに搭載の『LiDARスキャナ』とは?その仕組みや機能について解説」 https://time-space.kddi.com/ict-keywords/20201204/3020
  4. 3次元点群とは? 10 バックパック型スキャナー iPhone12 LiDAR  点の群れによって、3Dの情報を表現するもの(図[a])  XYZ座標を持つ点(例:エクセルの1行)が大量にあるイメージ (図[b])

     1つ1つの点を集めてみると対象の形状が復元される(図[c]) 点群のデータ形式のイメージ 点が集まると対象の形状になる 点群の例 [動画]
  5. 3次元点群の取得方法について 11 • レーザービームを打つ方法では,LiDAR (Light Detection and Ranging) と呼ばれる装置がよく用いられる 16

    beams θ 10 Hz 10 Hz [b] 横から見た図 [c] 上から見た図 Pan et al, Eco-Engineering., 29(1), 17-22, 2016 http://velodynelidar.com/vlp-16.html [a] 1)の方法の装置の例 • 図 [d] のように対象にレーザービームを照射し,反射して 返ってくるまでの時間を利用して対象までの距離を計測 動画出展:Lidar 101 from Velodyne Lidar https://www.youtube.com/watch?v=NZKvf1cXe8s&t=58s [動画]  有名なものでは,1) レーザービームを打つ方法,2) 写真から3D復元する方法がある
  6. 3次元点群の取得方法について  写真測量(Structure from Motion): 画像を多くの角度から撮影し, それらの画像をつなぎ合わせることで 3D点群を構築できる [c] [d]

    [e] [a] [b] [動画] 図出展 [a]: Photogrammetry: 3D Scanning with a camera https://wikifactory.com/+bitfab/stories/photogrammetry-3d-scanning-with-a-camera
  7. NeRFについて (Mildenhall et al., ECCV, 2020) 14  好きな方向から対象を見た時にどのような見え方をするかを推定することができる (novel

    view synthesis)  (ある程度は)カメラで撮影していない方向から見ることも可能  ナイフの反射の度合いなどが見る角度によって異なって見える
  8. NeRFについて (Mildenhall et al., ECCV, 2020) 16  注意点 •

    本発表では、Mildenhall et al. (2020) の方法に基づいて説明をします。後続研究にて別の方 法が利用されていたり、品質が向上している可能性があります。 • 本手法では、撮影した範囲について3次元化します。物体の裏側などの撮影していない部分を 画像生成のような方法で補間はしません
  9. NeRFを実行するまでの大まかな流れ カメラの位置と向きを推定(SfM) 対象の画像(動画)を撮影 (カメラの内部パラメータの推定) 撮影する対象を選択 図出典:NeRF: Representing Scenes as Neural

    Radiance Fields for View Synthesis 光線上の点の色と密度を計算 訓練:予測したピクセルの色と実 際の値の差分を計算 訓練:ニューラルネットワークの 重みを更新 推論:任意のカメラの位置を指定し、 その画像を生成
  10. NeRFの前準備について:NeRFを実行する前 カメラの位置と向きを推定(SfM) 対象の画像(動画)を撮影 (カメラの内部パラメータの推定) 撮影する対象を選択 図出典:NeRF: Representing Scenes as Neural

    Radiance Fields for View Synthesis 光線上の点の色と密度を計算 訓練:予測したピクセルの色と実 際の値の差分を計算 訓練:ニューラルネットワークの 重みを更新 推論:任意のカメラの位置を指定し、 その画像を生成
  11. NeRFの前準備: 外部パラメータの推定 29  未知数: 1) 特徴点の位置XYZ→3つ 2) 2つのカメラの位置関係を回転行列で表したときのパラメータ →XYZ軸に対する回転で3つ

    3) 2つのカメラの関係を表すための平行移動のパラメータ→XYZ方向で3つ 4)原理上、スケール(縮尺)に関する値が定まらない→パラメータ数が1つ減る →特徴点の数ごとに3つの未知数が増え、そのカメラの位置関係に関して5つの未知数 画像出典: ディジタル画像処理 Kindle版 14章
  12. NeRFの前準備: 外部パラメータの推定 30  1つの対応点のペアを得た場合 ・2つのカメラに対してそれぞれXYに関する2つの式の合計4式が得られる ・特徴点の位置XYZの3つの未知数が増える 画像出典: ディジタル画像処理 Kindle版

    14章 → n個の特徴点のペアを得た場合、未知数は3n+5個で、式は4n個 → 3n+5≦4n つまり n≧5であれば解が求まる(5点アルゴリズム) (参考)エピポーラ幾何による拘束条件を与え、別の解き方ができる ・8点アルゴリズム
  13. NeRFの前準備について:NeRFを実行する前 カメラの位置と向きを推定(SfM) 対象の画像(動画)を撮影 (カメラの内部パラメータの推定) 撮影する対象を選択 図出典:NeRF: Representing Scenes as Neural

    Radiance Fields for View Synthesis 光線上の点の色と密度を計算 訓練:予測したピクセルの色と実 際の値の差分を計算 訓練:ニューラルネットワークの 重みを更新 推論:任意のカメラの位置を指定し、 その画像を生成
  14. NeRFの前準備について:NeRFを実行する前 カメラの位置と向きを推定(SfM) 対象の画像(動画)を撮影 (カメラの内部パラメータの推定) 撮影する対象を選択 図出典:NeRF: Representing Scenes as Neural

    Radiance Fields for View Synthesis 光線上の点の色と密度を計算 訓練:予測したピクセルの色と実 際の値の差分を計算 訓練:ニューラルネットワークの 重みを更新 推論:任意のカメラの位置を指定し、 その画像を生成
  15. NeRFのモデルの概要: 入力について 42  生のXYZ座標やその光の方向を入力しない  pは位置を表し、位置XYZの場合は、pは例えば (1, 2, 3)のようになる

     Positional Encodingと呼ばれる方法で、より高次元に変換してからネットワークにて計算する  このような変換を施すことで、ネットワークの学習がやりやすくなる
  16. まとめ: 写真測量との比較の例  各手法を工夫・発展させることで、下表の制限をクリアできる場合も考えられます NeRF(本日紹介した内容) 写真測量 (SfM-MVS) レーザー測量(LiDAR) 色情報 取得可能

    取得可能 画像と組み合わせることで 取得可能 角度に依存した 見え方の反映 任意の位置からの見え方を再 現可能 各点には単一の色のみが保 存される 各点には単一の色のみが保 存される 長さ マーカーなどを利用することで 与えられる マーカーや位置情報などを利 用することで与えられる 高精度に計測可能 面積・体積 マーカーなどを利用することで 計算可能 マーカーや位置情報などを利 用することで計算可能 計算可能 手軽さ スマートフォンなどで手軽に実 行可能 スマートフォンや専用のソフト ウェアなどで実行可能 業務用の機材が必要な場合 が多い 暗所での撮影 工夫が必要 工夫が必要 可能  計測や機材の条件などで下表の内容が変わることがあります
  17. 3D Gaussian Splattingとは 51  NeRFとは異なる自由視点画像生成の手法 Kerbl, B., Kopanas, G.,

    Leimkühler, T., & Drettakis, G. (2023). 3d gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics (ToG), 42(4), 1-14.  NeRFの発展形の手法と比べても高速・高品質
  18. (参考)NeRFと3D Gaussian Splattingの違いについて 2Dに投影 3Dガウスの 数や位置などを調整 実際のカメラ画像と の差分を求める 光線ごとに 対象の色を推定

    実際のカメラ画像と の差分を求める ニューラルネット ワークの重みを更新 ニューラルネットワークを 用意 SfMでカメラの位置 と向きを推定 SfMでカメラの位置 と向きを推定 SfMの 特徴点を取り出し 3Dガウシアン カメラ画像 カメラ画像 繰り返し 繰り返し 3D Gaussian Splatting NeRF
  19. NeRF(本日の内容) 3DGS(新しい方法) 補足 主な入力 カメラ画像 カメラ画像 NeRFと3DGSで共通 色情報 取得可能 取得可能

    カメラの位置 SfM SfM 画像にする方法 αブレンディング αブレンディング SfMでの特徴点 利用しない 利用する* 利用しなくても計算自体は可能 3Dの空間を表す方法 ニューラルネットワーク 3Dガウス 3Dガウシアンはニューラルネット ワークを使わない レンダリングの方法 レイトレーシング* ラスタライズ レイマーチングと3DGSの論文で は記載されている 3Dモデルの取得方法 密度を利用 3Dガウスの位置を利用 1ピクセルごとの計算 する しない 3DGSは計算が速い (参考)NeRFと3D Gaussian Splattingの違いについて