Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2025 [TS1] 光学・物理原理に基づく深層画像生成

SSII2025 [TS1] 光学・物理原理に基づく深層画像生成

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. 1 Copyright 2025 NTT CORPORATION 略歴 • 2014.03 東大 知能機械

    下坂研 修士卒 • 2014.04 NTT コミュニケーション科学基礎研究所 入所 • 2020.04 特別研究員(管理職) 就任 新規テーマ立上げ 制御可能な画像生成 ACMMM2016, CVPR2017, CVPR2018 音声研究との出会い 音声合成・音声変換 ICASSP2017, Interspeech2017x2 EUSIPCO2018, ICASSP2019, Interspeech2019 機械学習・画像認識 • 2017.04 東大 知能機械 原田研 博士入学 • 2020.03 東大 博士修了 社会人博士 不完全データからの画像生成 CVPR2019, BMVC2019, CVPR2020, CVPR2021 光学・物理原理に基づく画像生成 CVPR2021, CVPR2022, ICCV2023, CVPR2024, CVPR2025 音声合成・音声変換 Interspeech2020, ICASSP2021, ICASSP2022, Interspeech2022, ICASSP2023, Interspeech2023, ICASSP2024, Interspeech2024, Interspeech2025x2
  2. 2 Copyright 2025 NTT CORPORATION 研究内容 深層生成モデルを用いた画像生成,音声合成・変換 音声合成 音声変換 CFGAN

    [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]
  3. 3 Copyright 2025 NTT CORPORATION 研究内容 深層生成モデルを用いた画像生成,音声合成・変換 音声合成 音声変換 CFGAN

    [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025] 本日のトピック
  4. 4 Copyright 2025 NTT CORPORATION 研究背景 画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T.

    Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. Q. 生成画像はどれ?
  5. 5 Copyright 2025 NTT CORPORATION 研究背景 画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T.

    Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. A. 全部 by EDM2
  6. 6 Copyright 2025 NTT CORPORATION 研究背景 動画生成への期待の高まり • 近年では動画生成も商用レベルに ›

    例:OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … Q. 生成動画はどれ? X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. 動画:https://github.com/hpcaitech/Open-Sora
  7. 7 Copyright 2025 NTT CORPORATION 研究背景 動画生成への期待の高まり • 近年では動画生成も商用レベルに ›

    例:OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. A. 全部 by Open-Sora 2.0 動画:https://github.com/hpcaitech/Open-Sora
  8. 8 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 光学・物理的に自然な動画の生成にはまだ課題が存在 H.

    Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. Model: Wan2.1 Text Prompt: A small rock tumbles down a steep, rocky hillside, displacing soil and small stones. 重力を無視 Model: Hunyuan Text Prompt: A leaf blower is pointed at a patch of leaves on a lawn; the leaves are forcefully displaced in a specific direction. 運動量保存則を無視 Model: Sora Text Prompt: A canoeist uses a single-bladed paddle to propel their canoe across a lake, the paddle's movement visible against the still water. 反射を無視 動画:https://videophy2.github.io/
  9. 9 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット(VideoPhy-2のHard Subset

    [Bansal+2025])では、 ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難
  10. 10 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット(VideoPhy-2のHard Subset

    [Bansal+2025])では、 ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難 キーアイディア 光学・物理原理をモデルに導入しては?
  11. 11 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or

    陽に表現 陰に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 ・いずれも一長一短あり ・ハイブリッド手法もあり
  12. 12 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or

    陽に表現 陰に表現 陽に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ DNN + 光学・物理モデル 光学・物理原理に基づきDNNを制約 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 光学・物理モデルの事前設計が必要 対象現象は光学・物理モデルに従う必要 ・いずれも一長一短あり ・ハイブリッド手法もあり DNN 画像 光学 物理 比較的少ない学習データで学習可能 モデルの解釈・制御が容易
  13. 13 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or

    陽に表現 陰に表現 陽に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ DNN + 光学・物理モデル 光学・物理原理に基づきDNNを制約 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 光学・物理モデルの事前設計が必要 対象現象は光学・物理モデルに従う必要 ・いずれも一長一短あり ・ハイブリッド手法もあり DNN 画像 光学 物理 比較的少ない学習データで学習可能 モデルの解釈・制御が容易 本日はこちらに フォーカス
  14. 14 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  15. 15 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  16. 16 Copyright 2025 NTT CORPORATION 光学に基づくモデル アプリケーション:新規画像生成 • 多視点画像から3次元表現を学習し、それに基づき画像を生成することで、 光学的・幾何的に整合性のある画像を生成

    B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 観測データ 多視点画像 カメラパラメータ 学習対象 3次元表現 (NeRF、GSなど) アプリケーション 新規画像生成 (観測データにない視点からの画像を生成) 光学的・幾何的 制約の下最適化 光学的・幾何的に整合性 のある画像を生成
  17. 17 Copyright 2025 NTT CORPORATION 光学に基づくモデル 研究課題 • Q1. どのように3次元表現?

    • Q2. どのようにして2次元画像に投影? • Q3. どのようにして学習? 3次元表現 2次元画像 訓練画像 投影 目的関数
  18. 18 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF)

    [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020.
  19. 19 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF)

    [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 コンパクトで連続的な 3次元表現を実現
  20. 20 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF)

    [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして2次元画像投影? Volume Renderingにより 光線上の点を密度を考慮しながら集積 物体の3次元的な広がり も考慮して物体を表現
  21. 21 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF)

    [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化 Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして2次元画像投影? Volume Renderingにより 光線上の点を密度を考慮しながら集積
  22. 22 Copyright 2025 NTT CORPORATION 例1:NeRF 画像生成例 学習も遅い 高精細な画像を生成可能 レンダリングが遅い(3次元上の各点ごとにMLPの実行が必要)

    モデルが軽量(全空間共通の1つのMLPのみ) B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 動画:https://www.matthewtancik.com/nerf
  23. 23 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid

    Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 視点変化による色の変化のみMLPで表現
  24. 24 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid

    Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 MLPの繰り返し計算を削減 視点変化による色の変化のみMLPで表現
  25. 25 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid

    Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 視点変化による色の変化のみMLPで表現 Q2. どのようにして 2次元画像に投影? Volume Rendering
  26. 26 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid

    Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 視点変化による色の変化のみMLPで表現 Q2. どのようにして 2次元画像に投影? Volume Rendering Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化
  27. 27 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF 画像生成例 C. Sun

    et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 学習時間を49倍〜183倍短縮 高精細な画像を生成可能 学習も速い レンダリングが速い モデルサイズは大きい(解像度の3乗に比例) 動画:https://sunset1995.github.io/dvgo/
  28. 28 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS)

    [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023.
  29. 29 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS)

    [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 特に、3D Gaussianを物体存在領域に 重点的に配置することで効率的に表現
  30. 30 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS)

    [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 Q2. どのようにして2次元画像に投影? Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α(不透明度)が閾値に達したら処理をストップ NeRF:光線ごとに処理 → 3DGS:タイルごとの処理 高速化
  31. 31 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS)

    [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 Q2. どのようにして2次元画像に投影? Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α(不透明度)が閾値に達したら処理をストップ Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化
  32. 32 Copyright 2025 NTT CORPORATION 例3:3DGS 画像生成例 B. Kerbl et

    al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. 高精細な画像を生成可能 学習も速い レンダリングがより速い(1080p解像度画像を≥100fpsでレンダリング) モデルサイズは大きい 動画:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
  33. 33 Copyright 2025 NTT CORPORATION ここまでのまとめ 事前知識 • 光学原理に基づくモデル:どのように3次元表現? どのようにして2次元画像に投影?

    NeRF [Mildenhall+2020] Voxel NeRF [Sun+2022] 3DGS [Kerbl+2023] 陰関数 ボクセル +陰関数 3D Gaussian 高精細な画像を生成可能 学習も速い レンダリングがより速い モデルサイズは大きい 学習も遅い 高精細な画像を生成可能 レンダリングが遅い モデルが軽量 高精細な画像を生成可能 学習も速い レンダリングが速い モデルサイズは大きい 非常に活発な研究領域で他にも様々なモデルあり
  34. 34 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  35. 35 Copyright 2025 NTT CORPORATION 物理に基づくモデル アプリケーション:物理に基づくシミュレーション Y. Hu et

    al., “A Moving Least Squares Material Point Method with Displacement Discontinuity and Two-Way Rigid Body Coupling,” SIGGRAPH 2018. パラメータを変えた時の挙動の比較 挙動予測 動画: https://github.com/yuanming-hu/taichi_mpm
  36. 36 Copyright 2025 NTT CORPORATION 物理に基づくモデル 研究課題 • Q1. どのように物体を表現?

    • Q2. どのように支配方程式(質量保存則・運動量保存則など)を解く? • Q3. どのように物体を変形? 物体 物体 時間 経過 力
  37. 37 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド

    図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影
  38. 38 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド

    図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算
  39. 39 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド

    図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算 Step 3:ノードの情報を物質点へ補間 形状関数(補間関数)に基づき ノードの物理量を物質点へ補間
  40. 40 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド

    図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算 Step 3:ノードの情報を物質点へ補間 形状関数(補間関数)に基づき ノードの物理量を物質点へ補間 Step 4:物質点の更新と格子のリセット Step 3に基づき物質点の物理量を 更新することで物体を変形 & 格子はリセット
  41. 41 Copyright 2025 NTT CORPORATION 例:MPM MPMの特長1:様々な材料特性の物体を表現可能 MPMの特長2:微分可能なモデルも存在 • Differentiabl

    MPM (DiffMPM) [Hu+2020] › 物理シミュレーションの結果から勾配伝播を行い、物理パラメータなどを最適化可能 ニュートン流体 非ニュートン流体 弾性体 可塑性体 粒状体 Droplet Letter Cream Toothpaste Torus Bird Playdoh Cat Trophy X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Y. Hu et al., “DiffTaichi: Differentiable Programming for Physical Simulation,” ICLR 2020. 物理パラメータ DiffMPM シミュレーション 順伝播 勾配の逆伝播 動画: https://sites.google.com/view/PAC-NeRF
  42. 42 Copyright 2025 NTT CORPORATION ここまでのまとめ 事前知識 • 物理原理に基づくモデル:どのように物体を表現? 支配方程式を解く?

    Material Point Method 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 格子法 +粒子法 様々な材料特性の物体を表現可能 微分可能なモデルも存在 非常に活発な研究領域で他にも様々なモデルあり
  43. 43 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  44. 44 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  45. 45 Copyright 2025 NTT CORPORATION Forward Engeneering 問題:ダイナミクス生成 • 多視点画像から得た3次元表現を物理モデルに基づき変形し、ダイナミクスを生成

    観測データ 多視点画像 カメラパラメータ 生成対象 ダイナミクス T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理モデルに基づき変形 物理モデル 動画: https://xpandora.github.io/PhysGaussian/
  46. 46 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024]

    • 3DGS [Kerbl+2023] による3次元表現 + MPMによる物理シミュレーション T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024.
  47. 47 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024]

    T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得
  48. 48 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024]

    T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション 3D Gaussian (位置、大きさ、向き) の変形の定式化 球面調和関数 (視点依存の色)の 変形による変化も考慮
  49. 49 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024]

    T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 3:動画の生成 3次元的な物理シミュレーションの 結果を画像に投影して動画を生成 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション
  50. 50 Copyright 2025 NTT CORPORATION 例:PhysGaussian ダイナミクス生成例 T. Xie et

    al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理法則に基づき静止画からダイナミクスを生成 動画: https://xpandora.github.io/PhysGaussian/
  51. 51 Copyright 2025 NTT CORPORATION PhysGaussianの限界 Physics-Integrated 3D Gaussians [Xie+2024]

    T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 3:動画の生成 3次元的な物理シミュレーションの 結果を画像に投影して動画を生成 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション 物理パラメータは 人手で設定が必要
  52. 52 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル ›

    Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル
  53. 53 Copyright 2025 NTT CORPORATION Reverse Engeneering 問題:システム同定 • 多視点動画から対象物体の物理パラメータを推定

    観測データ 多視点動画 カメラパラメータ 推定対象 物理パラメータ 物理パラメータ • ヤング率 • ポアソン比 など 観測データを再現できる ように物理パラメータを最適化 X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 物理モデル 動画: https://sites.google.com/view/PAC-NeRF
  54. 54 Copyright 2025 NTT CORPORATION Reverse Engeneering 目的:実世界を正確に把握 → サイバー世界上で再現

    • アプリケーション:未来予測、物理量を変えた時のシミュレーションなど J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値 再構成 + 未来予測 硬質化 重力ゼロ化 動画:https://jukgei.github.io/project/gic/
  55. 55 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF

    (PAC-NeRF) [Li+2023] • Voxel NeRF [Sun+2022] による3次元表現 + DIffMPM [Hu+2020] による物理シミュレーション X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023.
  56. 56 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF

    (PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 1:初期フレームの3次元形状を最適化 通常のVoxel NeRFと同様に投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化 ポイント1:Grid to Particle 粒子に基づくシミュレーション(MPM)を実行する ため格子から粒子にサンプリング ポイント2:Particle to Grid 格子ベースのVolume Renderinigを実行する ため粒子を格子に集約
  57. 57 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF

    (PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 2:物理パラメータの最適化 MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化 ポイント:微分可能なMPMを利用 微分可能なMPM(DiffMPM [Hu+2020])を用いる ことで物理パラメータに勾配を伝播して更新可能
  58. 58 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF システム同定例 X. Li et

    al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成 ニュートン流体 流体粘度 2.00 × 102 体積弾性率 1.00 × 105 流体粘度 2.09 × 102 体積弾性率 1.08 × 105 真値 PAC-NeRF 粒子再構成 非ニュートン流体 剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.21 × 105 体積弾性率 1.57 × 106 降伏応力 3.16 × 103 可塑性粘度 5.6 真値 PAC-NeRF 粒子再構成 弾性体 ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.04 × 106 ポアソン比 0.322 動画: https://sites.google.com/view/PAC-NeRF
  59. 59 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF システム同定例 X. Li et

    al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成 可塑性体 ヤング率 2.00 × 106 ポアソン比 0.300 降伏応力 1.54 × 104 ヤング率 3.84 × 106 ポアソン比 0.272 降伏応力 1.69 × 104 真値 PAC-NeRF 粒子再構成 粒状体 摩擦角 40° 摩擦角 36.1° 様々な材料特性の物体の物理パラメータを動画から特定 動画: https://sites.google.com/view/PAC-NeRF
  60. 60 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO)

    [Kaneko+2024] • PAC-NeRF + LPOによる3次元表現の動画全体での最適化 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 𝑡 𝐸 = 1.00 × 106 𝜈 = 0.300 𝐸 = 1.89 × 106 𝜈 = 0.215 Ground truth PAC-NeRF Statically 𝐸 = 1.15 × 106 𝜈 = 0.299 +LPO4 Dynamically 3次元表現は 初期フレームのみ 使って最適化 初期フレーム の推定誤差が 後のフレームに影響 物理パラメータの 推定精度も悪化 3次元表現を 動画全体で 最適化 後のフレームの 誤差を修正 物理パラメータの 推定精度も改善 特に、3次元表現の学習が難しい時 (カメラが少数の時など) に問題
  61. 61 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO)

    [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Step 1:初期フレームの3次元形状を最適化(PAC-NeRFと同様) 投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化 Eulerian Lagrangian Frozen Optimized
  62. 62 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO)

    [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 2: 物理パラメータの最適化(PAC-NeRFと同様) MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化
  63. 63 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO)

    [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 3: 3次元形状の修正(LPOで導入) MPMによるシミュレーション結果と観測動画の差が小さくなるように3次元形状(粒子形状)を修正 ポイント:Lagrangian空間で最適化 Lagrangian(粒子)空間で最適化を行うことで MPMによる物理制約を課しながら最適化が可能
  64. 64 Copyright 2025 NTT CORPORATION 例2:LPO システム同定例 ※ カメラの数が少数(3つ)の時の性能を検証 真値

    PAC-NeRF +LPO4 弾性体 ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.89 × 106 ポアソン比 0.215 真値 PAC-NeRF 非ニュートン流体 剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.51 × 104 体積弾性率 2.17 × 106 降伏応力 2.94 × 103 可塑性粘度 15.67 ヤング率 1.15 × 106 ポアソン比 0.299 剛性率 1.26 × 104 体積弾性率 1.32 × 106 降伏応力 3.04 × 103 可塑性粘度 10.80 +LPO4 PSNR: 23.99 PSNR: 30.07 PSNR: 27.43 PSNR: 30.23 3次元形状の復元精度と物理パラメータの推定精度をともに改善 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/lpo/
  65. 65 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024]

    • 3DGS [Kerbl+2023] による3次元表現 + MPMによる物理シミュレーション J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024.
  66. 66 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024]

    J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 1:動画全体で3次元形状を最適化 モーション分解型動的3D Gaussian Networkを使って投影動画と観測動画の差が小さくなるように3D Gaussianを最適化 ポイント1:モーションを複数の基底の集合で表現 ポイント2: モーションの 差分をモデル化
  67. 67 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024]

    J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 2:連続体の算出と表面の抽出 物理シミュレーションを行うため連続体を算出、また、表面も抽出し目的関数の算出に利用
  68. 68 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024]

    J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 3:物理パラメータの最適化 MPMによるシミュレーション結果と対象データの差が小さくなるように物理パラメータを最適化 ポイント 物体の2次元マスクに加えて 3次元表面も一致するようにすることで 高精度化
  69. 69 Copyright 2025 NTT CORPORATION 例3:GIC アプリケーション例 J. Cai et

    al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値 再構成 + 未来予測 軟質化 初期速度 の変更 真値 再構成 + 未来予測 硬質化 重力ゼロ化 一度モデルが学習できれば未来予測や物理量を変えた時のシミュレーションなどが可能 真値 再構成 + 未来予測 液化 可塑化 真値 再構成 + 未来予測 弾性体化 可塑化 動画:https://jukgei.github.io/project/gic/
  70. 70 Copyright 2025 NTT CORPORATION PAC-NeRF, LPO, GICの限界 物体は密であることを仮定 •

    見た目は同じだけれども内部構造が異なる物体があった場合 › 常に密の物体(左側)を仮定し、中空の物体(右側)は対応困難 ↑ 密であること(こちら)を仮定 ↑ 中空の物体は対応困難 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .
  71. 71 Copyright 2025 NTT CORPORATION 内部形状のReverse Engineering 問題:Structure from Collision

    (SfC) [Kaneko+2025] • 衝突時の外部形状の変化から内部形状を推定 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . 観測データ 多視点動画 カメラパラメータ 推定対象 内部形状 観測データを再現できる ように内部形状を最適化 観測データ 多視点動画 カメラパラメータ 推定対象 内部形状 観測データを再現できる ように内部形状を最適化 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/
  72. 72 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF

    (SfC-NeRF) [Kaneko+2025] • モデルはPAC-NeRFと同様(Voxel NeRF [Sun+2022] による3次元表現 + DIffMPM [Hu+2020] による物理シミュレーション) • 最適化方法が異なる T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .
  73. 73 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF

    (SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 1:初期フレームの外部形状を最適化(PAC-NeRFと同様) 投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化
  74. 74 Copyright 2025 NTT CORPORATION ポイント4: 体積アニーリング 定期的に膨張処理を行う ことで局所解から脱却 SfC-NeRF

    Structure from Collision NeRF (SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 2:初期フレームの内部形状を最適化(SfC-NeRFで導入) MPMによるシミュレーション結果と観測動画の差が小さくなるように初期フレームの3次元形状を最適化 ポイント1:画像損失 投影動画と観測動画の 差を最小化 ポイント2:外部形状保持損失 Step 2で内部形状を最適化する過程で Step 1で得た外部形状が 保持されるように制約 ポイント3:質量損失 質量が分かっている場合は 推定質量と観測質量の差を最小化
  75. 75 Copyright 2025 NTT CORPORATION SfC-NeRF 内部形状の推定例 T. Kaneko, “Structure

    from Collision,” CVPR 2025 to appear . 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 動画だけから物体内部の空洞の大きさ・偏りを推定 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/
  76. 76 Copyright 2025 NTT CORPORATION ここまでのまとめ メイントピック • Forward Engineering

    › 静止画 → ダイナミクスを生成 • Reverse Engineering › 動画 → 内部状態の推定 物理モデル PhysGaussian 物理モデルを組み込むことで 物理的に整合性のあるダイナミクスを生成 PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル SfC-NeRF 内部形状 物理モデルを組み込むことで 物理的制約下で内部状態を推定
  77. 77 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2.

    Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow
  78. 78 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2.

    Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow
  79. 79 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation +

    Video Diffusion Prior [Zhang+2024] • Q. 静止画だけからReverse Engeneering(物理パラメータの推定)するためには? → A. Video Diffusionで動画を生成して動画のPriorとして利用 T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024.
  80. 80 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation +

    Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得
  81. 81 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation +

    Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video Video Diffusionを使って画像から動画を生成し 動画のPriorとして利用
  82. 82 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation +

    Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video Video Diffusionを使って画像から動画を生成し 動画のPriorとして利用 Step 3:物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの生成動画 の差が小さくなるように物理パラメータを最適化
  83. 83 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer ダイナミクス生成例 T. Zhang

    et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. 実データ PhysDreamer PhysGaussian DreamGaussian4D 静止画だけからより自然なダイナミクスを生成 動画:https://physdreamer.github.io/
  84. 84 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2.

    Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow
  85. 85 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion

    + Muti-modal Foundation Models [Liu+2025] • Q. 物理パラメータのよい初期値を得るためには? → A. Multi-modal Foundation Models (MMFMs) を利用 Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear .
  86. 86 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion

    + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得
  87. 87 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion

    + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)
  88. 88 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion

    + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3:物理パラメータの初期値の獲得 MMFMを用いて画像から 物理パラメータの初期値を獲得 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)
  89. 89 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion

    + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3:物理パラメータの初期値の獲得 MMFMを用いて画像から 物理パラメータの初期値を獲得 Step 4:物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの 生成動画の差が小さくなるように物理パラメータを最適化 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)
  90. 90 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow ダイナミクス生成例 Z. Liu et

    al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . 入力画像 PhysFlow PhysGaussian PhysDreamer Physics3D 静止画だけからさらに自然なダイナミクスを生成 動画:https://zhuomanliu.github.io/PhysFlow/
  91. 92 Copyright 2025 NTT CORPORATION まとめ 研究課題 • 光学・物理的に自然な動画の生成にはまだ課題が存在 事前知識

    • 光学原理に基づくモデル(NeRF, 3DGS) • 物理原理に基づくモデル(MPM) メイントピック:光学・物理原理に基づくモデル • Forward Engeneering:静止画→ダイナミクス生成(PhysGaussian) • Reverse Engeneering:動画→内部状態の推定(PAC-NeRF, LPO, GIC, SfC-NeRF) 発展的な話題 • Video Diffusionの活用(PhysDreamer) • Multi-modal Foundation Modelの活用(PhysFlow) 非常に活発な研究領域で他にも様々な興味深い研究あり
  92. 93 Copyright 2025 NTT CORPORATION 今後の展望 自然性の更なる改善 • 自然性は向上しているがまだ改善の余地あり 実データでの性能向上

    • 物理モデルの改善が進んでいるがまだ実現象との乖離あり PhysFlowの論文より引用 最新の手法(PhysFlow@CVPR2025) でも主観評価(5段階評価)で4未満 最新の手法(SpringGaus@ECCV2024) でも実現象の完璧な再現は困難 動画:https://zlicheng.com/spring_gaus/
  93. 94 Copyright 2025 NTT CORPORATION 関連情報 • 金子の研究紹介ページ › https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/

    音声合成 音声変換 CFGAN [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]