Upgrade to Pro — share decks privately, control downloads, hide ads and more …

深層学習と3Dキャプチャ・3Dモデル生成(土木学会応用力学委員会 応用数理・AIセミナー)

深層学習と3Dキャプチャ・3Dモデル生成(土木学会応用力学委員会 応用数理・AIセミナー)

土木学会応用力学委員会 応用数理・AIセミナー『深層学習と3Dキャプチャ・3Dモデル生成』の資料です。

1. イントロダクション
2. 3Dキャプチャと深層学習
3. 深層学習による3Dモデル生成
4. まとめ

リンク一覧
- p4. [source] https://graphics.stanford.edu/data/3Dscanrep/
- p4. [PLATEAU] https://www.youtube.com/watch?v=cSq011glubU
- p7. [首里城デジタル復元] https://www.our-shurijo.org/
- p7. [ノートルダム大聖堂のデジタル化] https://news.cnrs.fr/articles/a-digital-twin-for-notre-dame
- p8. [SimCity] https://www.ea.com/ja/games/simcity/simcity
- p8. [ゴジラ-1.0] https://www.youtube.com/watch?v=tej6GCean34
- p12. [微分可能レンダリング (CVIM研究会 チュートリアル 2022)] https://speakerdeck.com/hkato/wei-fen-ke-neng-rendaringu-cvimyan-jiu-hui-tiyutoriaru
- p12. [ニューラル3D表現の最新動向 (SSII 2022)] https://www.slideshare.net/slideshow/ssii2022-ss1-3d/251933608
- p12. [三次元構造を考慮した画像生成(情報処理学会 連続セミナー2023)] https://docs.google.com/presentation/d/1eQUf-fKFj1o3lGxPGFxyqHZTYAl9k85XRg2BPE2F9nc/edit#slide=id.p
- p12. [三次元再構成 (東京大学大学院『知能情報論』 2024)] https://speakerdeck.com/pfn/20240613-utokyo-intelligent-informatics
- p12. [Web] https://hiroharu-kato.com/
- p12. [Google Scholar] https://scholar.google.co.jp/citations?user=RHV5YCkAAAAJ
- p12. [Twitter] https://x.com/hiroharu_kato
- p24. [Muller+ 2022] https://nvlabs.github.io/instant-ngp/
- p25. [CityGaussian] https://dekuliutesla.github.io/citygs/
- p28. [Luma AI 3D Capture] https://lumalabs.ai/interactive-scenes
- p31. [DreamFusion] https://dreamfusion3d.github.io/
- p31. [TRELLIS] https://trellis3d.github.io/
- p32. [Shi+ 2023] https://arxiv.org/abs/2310.15110
- p36. [Meshy] https://www.meshy.ai/
- p36. [Tripo3D] https://www.tripo3d.ai/
- p36. [Rodin] https://hyper3d.ai/

Preferred Networks

January 09, 2025
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. 9 3Dモデリングツールでイチから制作するのは - 正攻法 - ⾼品質,⾼精度,⾼精細 である⼀⽅で - ⾼度な専⾨スキルが必要 -

    精緻に作り込むには膨⼤な⼈的リソースが必要 という問題がある 3Dデータの作成: 3Dモデリング #9
  2. 12 ⾃⼰紹介 ― 加藤⼤晴(かとうひろはる) - Preferred Networks, Inc. リサーチャー /

    エンジニアリングマネージャー - 3Dキャプチャ‧3Dモデル⽣成に関する研究開発 - 博⼠(情報理⼯学) 博⼠論⽂は3D再構成について - 過去の講演資料など - 微分可能レンダリング (CVIM研究会 チュートリアル 2022) - ニューラル3D表現の最新動向 (SSII 2022) - 三次元構造を考慮した画像⽣成 (情報処理学会 連続セミナー2023) - 三次元再構成 (東京⼤学⼤学院『知能情報論』 2024) [Web] [Google Scholar] [Twitter] [E-Mail]
  3. 18 3Dキャプチャのいろいろ 接触式センサ - ロボットアームなどを 物体に接触させること で形状を計測 - ⾼精度だが,測定でき る対象が限られる

    深度センサ - 対象に光を照射し,反 射を計測することで形 状を計測 - コウモリが超⾳波で空 間認識するイメージ - ⾼精度だが,密な測定 は難しい 写真から - 写真をさまざまな⾓度 から撮影し,そこから ⽴体形状を推定 - 左右の⽬で⽴体感を把 握するイメージ - ⾒た⽬がよい(写真に 近い)キャプチャが得 意だが,形状の推定精 度は劣る 今回扱うのはココ
  4. 20 深層学習以前の画像識別 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 識別過程 - 別個の役割を果たす複数のモジュールで構成

    - 縦線抽出,⾊抽出,… - 「よい識別結果を得る」ではない,中間的 で間接的な⽬的で設計 - システム全体として識別に最適化されてい るとは限らない - ほとんどの処理を⼈⼿で設計 - 学習データを⽤いて調整できるパラメータ の数は少なく,柔軟性も低い
  5. 21 深層学習による画像認識 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 - 「層」を積み重ねて識別結果へ⾄る -

    「層」は畳み込み演算や⾏列の乗算などの 単純な処理を⾏う - 多数の「層」を重ねることで全体として⾼ い柔軟性を実現 - 「層」は,調整可能なパラメータを多 数持ち,「学習データが正しく識別で きること」を⽬的関数として⾃動的に 調整される - 全モジュールが「正しい識別結果を得 る」ことに直接的にフォーカスするこ とになるのが特徴 画像 識別結果 層 層 層 層 層 層
  6. 22 従来的なフォトグラメトリ 多数の写真 3Dモデル 動作イメージ キャプチャ過程 特徴点検出 特徴点マッチング 三⾓測量 メッシュ⽣成

    テクスチャ⽣成 多数の写真 3Dモデル 特徴的な点(机の⾓な ど)について,右⽬と左 ⽬の網膜上での位置の違 いから,奥⾏きを特定 特徴的な点をつないで ⾯を張る ⾯に⾊を塗る
  7. 23 従来的なフォトグラメトリの課題 多数の写真 3Dモデル 3Dキャプチャ 描画 画像 別個の役割を果たす複数のモジュールで構成 - 各モジュールの設計指針は「3Dモデルの良さ」ではない

    「得られた3Dモデルを描画した画像」と「撮影した写真」が そっくりであることが望ましいが,そう最適化されていない 撮影した写真 3Dモデルを描画した画像 (視点は少し異なる)
  8. 24 近年のフォトグラメトリ 3Dモデル 描画 多数の写真 画像 誤差 類似度計算 - 「撮影した写真」と「描画した画像」が近くなる

    ように,「3Dモデル」を最適化 - 「3Dモデルがリアルに⾒える」ことに直接的に フォーカスするのが特徴 - ⼀般に深層学習ライブラリを⽤いて実装される 3Dモデル 初期値 最適化初期 最適化後期 図は [Muller+ 2022] より
  9. 26 近年のフォトグラメトリを可能にした技術 あたらしい3Dモデル表現 - 最適化の鍵は「モヤモヤした状態から徐々にクッキリさせる」こと - 半透明のモヤモヤを効率的に扱う3D表現が必要 - 詳細は [Neural

    Radiance Fields 🔎] [3D Gaussian Splatting 🔎] あたらしい描画関数 - 最適化に深層学習フレームワークを使うのが⼀般的 - 深層学習の層として機能するような描画関数が必要 - 詳細は [微分可能レンダリング 🔎] 加藤の博士論文はココ
  10. 27 フォトグラメトリの難点 近年のフォトグラメトリの課題 - ⾒た⽬は綺麗だが,幾何形状が綺麗とは限らない(モヤモヤしがち) - そのため,外観検査などには適さない - 3D表現形式が独⾃で,ポリゴンメッシュなどに変換しにくい (変換⼿法は多数提案されているが,品質が劣化しやすい)

    - そのため,映像制作ツールやゲームエンジンなどで使いにくい 従来のフォトグラメトリにも共通の課題 - 照明や影が模様として焼きこまれてしまい,照明を当て直すのが難しい - ⼤胆な拡⼤に耐えられるような⾼精細な3Dキャプチャは難しい
  11. 33 多視点画像⽣成モデルと3D⽣成モデルの学習 テキスト 3Dモデル 画像 画像⽣成モデル 多視点画像⽣成モデル 多視点画像 3D⽣成モデル -

    画像⽣成モデルは,数億個の「テキストと画像のペ ア」を⽤いて学習 - 詳細は [拡散モデル 🔎] - ⼤量の「テキストと3Dモデルのペア」は存在しない → 画像⽣成と,画像からの3D⽣成を分けて学習 - 「画像からの3D⽣成」は,⼤量のCGモデルを描画し たデータを⽤いて学習 - Objaverse Dataset (約100万モデル) が代表的 - 詳細は [multi-view diffusion 🔎] [3D generation 🔎]
  12. 37 深層学習による3Dモデル⽣成 まとめ - 画像⽣成技術の進展の延⻑線上で,3Dモデル⽣成技術も発展中 - 3Dコンテンツ制作の敷居を下げる技術として重要 - ⽣成品質は,画像⽣成に⽐べると改善の余地が⼤きい -

    ディテールの不⾜ - 複数の物体から構成されるシーンは難しい - ⽣成結果のコントロールも難しめ - 最新技術を簡単に試せるサービスもリリースされている
  13. 39 深層学習と3Dキャプチャ‧3Dモデル⽣成 まとめ 3Dデータ - 設計以外にも,エンタメやデジタルツインなどで有⽤ - ⼀⽅で,3Dモデル制作に必要なリソースは⼤きい 実世界を3Dデータとして取り込む技術(3Dキャプチャ) -

    深層学習にヒントを得た⼿法によって品質が⼤幅に向上 ⾔語指⽰によって新しい3Dモデルを⽣成する技術(3Dモデル⽣成) - 画像⽣成技術の延⻑線上にある - 今後の性能向上が期待される