SSII2025 [TS1] 光学・物理原理に基づく深層画像生成

光学・物理原理に基づく深層画像生成〜光学・物理モデルと深層学習の融合による自然な画像の生成〜 2024. 5. 28 金子卓弘 (日本電信電話株式会社)

1 Copyright 2025 NTT CORPORATION 略歴 • 2014.03 東大知能機械
下坂研修士卒 • 2014.04 NTT コミュニケーション科学基礎研究所入所 • 2020.04 特別研究員（管理職）就任新規テーマ立上げ制御可能な画像生成 ACMMM2016, CVPR2017, CVPR2018 音声研究との出会い音声合成・音声変換 ICASSP2017, Interspeech2017x2 EUSIPCO2018, ICASSP2019, Interspeech2019 機械学習・画像認識 • 2017.04 東大知能機械原田研博士入学 • 2020.03 東大博士修了社会人博士不完全データからの画像生成 CVPR2019, BMVC2019, CVPR2020, CVPR2021 光学・物理原理に基づく画像生成 CVPR2021, CVPR2022, ICCV2023, CVPR2024, CVPR2025 音声合成・音声変換 Interspeech2020, ICASSP2021, ICASSP2022, Interspeech2022, ICASSP2023, Interspeech2023, ICASSP2024, Interspeech2024, Interspeech2025x2

2 Copyright 2025 NTT CORPORATION 研究内容深層生成モデルを用いた画像生成，音声合成・変換音声合成音声変換 CFGAN
[CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果画像生成音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]

3 Copyright 2025 NTT CORPORATION 研究内容深層生成モデルを用いた画像生成，音声合成・変換音声合成音声変換 CFGAN
[CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果画像生成音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025] 本日のトピック

4 Copyright 2025 NTT CORPORATION 研究背景画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T.
Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. Q. 生成画像はどれ？

5 Copyright 2025 NTT CORPORATION 研究背景画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T.
Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. A. 全部 by EDM2

6 Copyright 2025 NTT CORPORATION 研究背景動画生成への期待の高まり • 近年では動画生成も商用レベルに ›
例：OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … Q. 生成動画はどれ？ X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. 動画：https://github.com/hpcaitech/Open-Sora

7 Copyright 2025 NTT CORPORATION 研究背景動画生成への期待の高まり • 近年では動画生成も商用レベルに ›
例：OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. A. 全部 by Open-Sora 2.0 動画：https://github.com/hpcaitech/Open-Sora

8 Copyright 2025 NTT CORPORATION 研究課題しかし、まだ難しいケースも多く存在 • 光学・物理的に自然な動画の生成にはまだ課題が存在 H.
Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. Model: Wan2.1 Text Prompt: A small rock tumbles down a steep, rocky hillside, displacing soil and small stones. 重力を無視 Model: Hunyuan Text Prompt: A leaf blower is pointed at a patch of leaves on a lawn; the leaves are forcefully displaced in a specific direction. 運動量保存則を無視 Model: Sora Text Prompt: A canoeist uses a single-bladed paddle to propel their canoe across a lake, the paddle's movement visible against the still water. 反射を無視動画：https://videophy2.github.io/

9 Copyright 2025 NTT CORPORATION 研究課題しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット（VideoPhy-2のHard Subset
[Bansal+2025]）では、ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難

10 Copyright 2025 NTT CORPORATION 研究課題しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット（VideoPhy-2のHard Subset
[Bansal+2025]）では、ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難キーアイディア光学・物理原理をモデルに導入しては？

11 Copyright 2025 NTT CORPORATION 研究アプローチ代表的な２つのアプローチ • 光学・物理原理を陰に表現 or
陽に表現陰に表現 DNNのみモデル/データのスケールアップにより知識獲得 DNN 画像学習データ陰に様々な光学・物理現象を含むスケールアップスケールアップ光学・物理モデルの事前設計が不要大量の学習データが必要対象現象に対する仮定が不要モデルの解釈・制御が困難・いずれも一長一短あり・ハイブリッド手法もあり

陽に表現陰に表現陽に表現 DNNのみモデル/データのスケールアップにより知識獲得 DNN 画像学習データ陰に様々な光学・物理現象を含むスケールアップスケールアップ DNN + 光学・物理モデル光学・物理原理に基づきDNNを制約光学・物理モデルの事前設計が不要大量の学習データが必要対象現象に対する仮定が不要モデルの解釈・制御が困難光学・物理モデルの事前設計が必要対象現象は光学・物理モデルに従う必要・いずれも一長一短あり・ハイブリッド手法もあり DNN 画像光学物理比較的少ない学習データで学習可能モデルの解釈・制御が容易

陽に表現陰に表現陽に表現 DNNのみモデル/データのスケールアップにより知識獲得 DNN 画像学習データ陰に様々な光学・物理現象を含むスケールアップスケールアップ DNN + 光学・物理モデル光学・物理原理に基づきDNNを制約光学・物理モデルの事前設計が不要大量の学習データが必要対象現象に対する仮定が不要モデルの解釈・制御が困難光学・物理モデルの事前設計が必要対象現象は光学・物理モデルに従う必要・いずれも一長一短あり・ハイブリッド手法もあり DNN 画像光学物理比較的少ない学習データで学習可能モデルの解釈・制御が容易本日はこちらにフォーカス

14 Copyright 2025 NTT CORPORATION 目次事前知識 • 光学原理に基づくモデル ›
Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比物理モデル物理モデル

16 Copyright 2025 NTT CORPORATION 光学に基づくモデルアプリケーション：新規画像生成 • 多視点画像から３次元表現を学習し、それに基づき画像を生成することで、光学的・幾何的に整合性のある画像を生成
B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 観測データ多視点画像カメラパラメータ学習対象３次元表現（NeRF、GSなど）アプリケーション新規画像生成（観測データにない視点からの画像を生成）光学的・幾何的制約の下最適化光学的・幾何的に整合性のある画像を生成

17 Copyright 2025 NTT CORPORATION 光学に基づくモデル研究課題 • Q1. どのように３次元表現？
• Q2. どのようにして２次元画像に投影？ • Q3. どのようにして学習？３次元表現２次元画像訓練画像投影目的関数

18 Copyright 2025 NTT CORPORATION 例１：NeRF Neural Radiance Fields (NeRF)
[Mildenhall+2020] • 陰関数による３次元表現＋ Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020.

[Mildenhall+2020] • 陰関数による３次元表現＋ Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように３次元表現？陰関数（全空間共通の１つのMLP）により「３次元位置・向き」と「色・密度」の対応を表現コンパクトで連続的な３次元表現を実現

[Mildenhall+2020] • 陰関数による３次元表現＋ Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように３次元表現？陰関数（全空間共通の１つのMLP）により「３次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして２次元画像投影？ Volume Renderingにより光線上の点を密度を考慮しながら集積物体の３次元的な広がりも考慮して物体を表現

[Mildenhall+2020] • 陰関数による３次元表現＋ Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q3. どのようにして学習？投影画像と観測画像の差が小さくなるように3次元表現を最適化 Q1. どのように３次元表現？陰関数（全空間共通の１つのMLP）により「３次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして２次元画像投影？ Volume Renderingにより光線上の点を密度を考慮しながら集積

22 Copyright 2025 NTT CORPORATION 例１：NeRF 画像生成例学習も遅い高精細な画像を生成可能レンダリングが遅い（３次元上の各点ごとにMLPの実行が必要）
モデルが軽量（全空間共通の1つのMLPのみ） B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 動画：https://www.matthewtancik.com/nerf

23 Copyright 2025 NTT CORPORATION 例２：Voxel NeRF Direct Voxel Grid
Optimization (DVGO) [Sun+2022] • 陰関数＋ボクセルによる３次元表現＋ Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 視点変化による色の変化のみMLPで表現

Optimization (DVGO) [Sun+2022] • 陰関数＋ボクセルによる３次元表現＋ Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように３次元表現？ Voxelと陰関数のハイブリッドで表現 MLPの繰り返し計算を削減視点変化による色の変化のみMLPで表現

Optimization (DVGO) [Sun+2022] • 陰関数＋ボクセルによる３次元表現＋ Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように３次元表現？ Voxelと陰関数のハイブリッドで表現視点変化による色の変化のみMLPで表現 Q2. どのようにして２次元画像に投影？ Volume Rendering

Optimization (DVGO) [Sun+2022] • 陰関数＋ボクセルによる３次元表現＋ Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように３次元表現？ Voxelと陰関数のハイブリッドで表現視点変化による色の変化のみMLPで表現 Q2. どのようにして２次元画像に投影？ Volume Rendering Q3. どのようにして学習？投影画像と観測画像の差が小さくなるように3次元表現を最適化

27 Copyright 2025 NTT CORPORATION 例２：Voxel NeRF 画像生成例 C. Sun
et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 学習時間を49倍〜183倍短縮高精細な画像を生成可能学習も速いレンダリングが速いモデルサイズは大きい（解像度の３乗に比例）動画：https://sunset1995.github.io/dvgo/

28 Copyright 2025 NTT CORPORATION 例３：3DGS 3D Gaussian Splatting (3DGS)
[Kerbl+2023] • 3D Gaussianによる３次元表現＋ Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023.

[Kerbl+2023] • 3D Gaussianによる３次元表現＋ Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように３次元表現？多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成パラメータ：位置、大きさ、傾き、色、不透明度特に、3D Gaussianを物体存在領域に重点的に配置することで効率的に表現

[Kerbl+2023] • 3D Gaussianによる３次元表現＋ Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように３次元表現？多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成パラメータ：位置、大きさ、傾き、色、不透明度 Q2. どのようにして２次元画像に投影？ Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α（不透明度）が閾値に達したら処理をストップ NeRF：光線ごとに処理 → 3DGS：タイルごとの処理高速化

[Kerbl+2023] • 3D Gaussianによる３次元表現＋ Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように３次元表現？多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成パラメータ：位置、大きさ、傾き、色、不透明度 Q2. どのようにして２次元画像に投影？ Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α（不透明度）が閾値に達したら処理をストップ Q3. どのようにして学習？投影画像と観測画像の差が小さくなるように3次元表現を最適化

32 Copyright 2025 NTT CORPORATION 例３：3DGS 画像生成例 B. Kerbl et
al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. 高精細な画像を生成可能学習も速いレンダリングがより速い（1080p解像度画像を≥100fpsでレンダリング）モデルサイズは大きい動画：https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

33 Copyright 2025 NTT CORPORATION ここまでのまとめ事前知識 • 光学原理に基づくモデル：どのように３次元表現？どのようにして2次元画像に投影？
NeRF [Mildenhall+2020] Voxel NeRF [Sun+2022] 3DGS [Kerbl+2023] 陰関数ボクセル＋陰関数 3D Gaussian 高精細な画像を生成可能学習も速いレンダリングがより速いモデルサイズは大きい学習も遅い高精細な画像を生成可能レンダリングが遅いモデルが軽量高精細な画像を生成可能学習も速いレンダリングが速いモデルサイズは大きい非常に活発な研究領域で他にも様々なモデルあり

35 Copyright 2025 NTT CORPORATION 物理に基づくモデルアプリケーション：物理に基づくシミュレーション Y. Hu et
al., “A Moving Least Squares Material Point Method with Displacement Discontinuity and Two-Way Rigid Body Coupling,” SIGGRAPH 2018. パラメータを変えた時の挙動の比較挙動予測動画： https://github.com/yuanming-hu/taichi_mpm

36 Copyright 2025 NTT CORPORATION 物理に基づくモデル研究課題 • Q1. どのように物体を表現？
• Q2. どのように支配方程式（質量保存則・運動量保存則など）を解く？ • Q3. どのように物体を変形？物体物体時間経過力

37 Copyright 2025 NTT CORPORATION 例：MPM Material Point Method (MPM)：格子法と粒子法のハイブリッド
図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1：粒子から格子へ投影物体を物理量（質量、体積、位置、速度など）を持つ粒子（物質点）の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは困難たため物理量を格子のノードに投影

図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1：粒子から格子へ投影物体を物理量（質量、体積、位置、速度など）を持つ粒子（物質点）の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは困難たため物理量を格子のノードに投影 Step 2：格子上で支配方程式を解く支配方程式（質量保存則、運動量保存則）に基づき各ノードの物理量を計算

図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1：粒子から格子へ投影物体を物理量（質量、体積、位置、速度など）を持つ粒子（物質点）の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは困難たため物理量を格子のノードに投影 Step 2：格子上で支配方程式を解く支配方程式（質量保存則、運動量保存則）に基づき各ノードの物理量を計算 Step 3：ノードの情報を物質点へ補間形状関数（補間関数）に基づきノードの物理量を物質点へ補間

図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1：粒子から格子へ投影物体を物理量（質量、体積、位置、速度など）を持つ粒子（物質点）の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは困難たため物理量を格子のノードに投影 Step 2：格子上で支配方程式を解く支配方程式（質量保存則、運動量保存則）に基づき各ノードの物理量を計算 Step 3：ノードの情報を物質点へ補間形状関数（補間関数）に基づきノードの物理量を物質点へ補間 Step 4：物質点の更新と格子のリセット Step 3に基づき物質点の物理量を更新することで物体を変形＆格子はリセット

41 Copyright 2025 NTT CORPORATION 例：MPM MPMの特長１：様々な材料特性の物体を表現可能 MPMの特長２：微分可能なモデルも存在 • Differentiabl
MPM (DiffMPM) [Hu+2020] › 物理シミュレーションの結果から勾配伝播を行い、物理パラメータなどを最適化可能ニュートン流体非ニュートン流体弾性体可塑性体粒状体 Droplet Letter Cream Toothpaste Torus Bird Playdoh Cat Trophy X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Y. Hu et al., “DiffTaichi: Differentiable Programming for Physical Simulation,” ICLR 2020. 物理パラメータ DiffMPM シミュレーション順伝播勾配の逆伝播動画： https://sites.google.com/view/PAC-NeRF

42 Copyright 2025 NTT CORPORATION ここまでのまとめ事前知識 • 物理原理に基づくモデル：どのように物体を表現？支配方程式を解く？
Material Point Method 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用格子法＋粒子法様々な材料特性の物体を表現可能微分可能なモデルも存在非常に活発な研究領域で他にも様々なモデルあり

45 Copyright 2025 NTT CORPORATION Forward Engeneering 問題：ダイナミクス生成 • 多視点画像から得た３次元表現を物理モデルに基づき変形し、ダイナミクスを生成
観測データ多視点画像カメラパラメータ生成対象ダイナミクス T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理モデルに基づき変形物理モデル動画： https://xpandora.github.io/PhysGaussian/

46 Copyright 2025 NTT CORPORATION 例：PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024]
• 3DGS [Kerbl+2023] による３次元表現＋ MPMによる物理シミュレーション T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024.

T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1：３次元表現の獲得 3D Gaussian Splattingを用いて多視点画像から3D Gaussianを獲得

T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1：３次元表現の獲得 3D Gaussian Splattingを用いて多視点画像から3D Gaussianを獲得 Step ２：MPMの適用 3D Gaussianに対してMPMを適用し物理シミュレーション 3D Gaussian (位置、大きさ、向き) の変形の定式化球面調和関数（視点依存の色）の変形による変化も考慮

T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1：３次元表現の獲得 3D Gaussian Splattingを用いて多視点画像から3D Gaussianを獲得 Step ３：動画の生成３次元的な物理シミュレーションの結果を画像に投影して動画を生成 Step ２：MPMの適用 3D Gaussianに対してMPMを適用し物理シミュレーション

50 Copyright 2025 NTT CORPORATION 例：PhysGaussian ダイナミクス生成例 T. Xie et
al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理法則に基づき静止画からダイナミクスを生成動画： https://xpandora.github.io/PhysGaussian/

51 Copyright 2025 NTT CORPORATION PhysGaussianの限界 Physics-Integrated 3D Gaussians [Xie+2024]
T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1：３次元表現の獲得 3D Gaussian Splattingを用いて多視点画像から3D Gaussianを獲得 Step ３：動画の生成３次元的な物理シミュレーションの結果を画像に投影して動画を生成 Step ２：MPMの適用 3D Gaussianに対してMPMを適用し物理シミュレーション物理パラメータは人手で設定が必要

53 Copyright 2025 NTT CORPORATION Reverse Engeneering 問題：システム同定 • 多視点動画から対象物体の物理パラメータを推定
観測データ多視点動画カメラパラメータ推定対象物理パラメータ物理パラメータ • ヤング率 • ポアソン比など観測データを再現できるように物理パラメータを最適化 X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 物理モデル動画： https://sites.google.com/view/PAC-NeRF

54 Copyright 2025 NTT CORPORATION Reverse Engeneering 目的：実世界を正確に把握 → サイバー世界上で再現
• アプリケーション：未来予測、物理量を変えた時のシミュレーションなど J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値再構成＋未来予測硬質化重力ゼロ化動画：https://jukgei.github.io/project/gic/

55 Copyright 2025 NTT CORPORATION 例１：PAC-NeRF Physics Augmented Continuum NeRF
(PAC-NeRF) [Li+2023] • Voxel NeRF [Sun+2022] による３次元表現＋ DIffMPM [Hu+2020] による物理シミュレーション X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023.

(PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 1：初期フレームの３次元形状を最適化通常のVoxel NeRFと同様に投影画像と観測画像の差が小さくなるように初期フレームの３次元形状を最適化ポイント１：Grid to Particle 粒子に基づくシミュレーション（MPM）を実行するため格子から粒子にサンプリングポイント２：Particle to Grid 格子ベースのVolume Renderinigを実行するため粒子を格子に集約

(PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 2：物理パラメータの最適化 MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化ポイント：微分可能なMPMを利用微分可能なMPM（DiffMPM [Hu+2020]）を用いることで物理パラメータに勾配を伝播して更新可能

58 Copyright 2025 NTT CORPORATION 例１：PAC-NeRF システム同定例 X. Li et
al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成ニュートン流体流体粘度 2.00 × 102 体積弾性率 1.00 × 105 流体粘度 2.09 × 102 体積弾性率 1.08 × 105 真値 PAC-NeRF 粒子再構成非ニュートン流体剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.21 × 105 体積弾性率 1.57 × 106 降伏応力 3.16 × 103 可塑性粘度 5.6 真値 PAC-NeRF 粒子再構成弾性体ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.04 × 106 ポアソン比 0.322 動画： https://sites.google.com/view/PAC-NeRF

59 Copyright 2025 NTT CORPORATION 例１：PAC-NeRF システム同定例 X. Li et
al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成可塑性体ヤング率 2.00 × 106 ポアソン比 0.300 降伏応力 1.54 × 104 ヤング率 3.84 × 106 ポアソン比 0.272 降伏応力 1.69 × 104 真値 PAC-NeRF 粒子再構成粒状体摩擦角 40° 摩擦角 36.1° 様々な材料特性の物体の物理パラメータを動画から特定動画： https://sites.google.com/view/PAC-NeRF

60 Copyright 2025 NTT CORPORATION 例２：LPO Lagrangian Particle Optimization (LPO)
[Kaneko+2024] • PAC-NeRF ＋ LPOによる３次元表現の動画全体での最適化 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 𝑡 𝐸 = 1.00 × 106 𝜈 = 0.300 𝐸 = 1.89 × 106 𝜈 = 0.215 Ground truth PAC-NeRF Statically 𝐸 = 1.15 × 106 𝜈 = 0.299 +LPO4 Dynamically ３次元表現は初期フレームのみ使って最適化初期フレームの推定誤差が後のフレームに影響物理パラメータの推定精度も悪化３次元表現を動画全体で最適化後のフレームの誤差を修正物理パラメータの推定精度も改善特に、３次元表現の学習が難しい時（カメラが少数の時など）に問題

[Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Step 1：初期フレームの３次元形状を最適化（PAC-NeRFと同様）投影画像と観測画像の差が小さくなるように初期フレームの３次元形状を最適化 Eulerian Lagrangian Frozen Optimized

[Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 2：物理パラメータの最適化（PAC-NeRFと同様） MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化

[Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 3：３次元形状の修正（LPOで導入） MPMによるシミュレーション結果と観測動画の差が小さくなるように３次元形状（粒子形状）を修正ポイント：Lagrangian空間で最適化 Lagrangian（粒子）空間で最適化を行うことで MPMによる物理制約を課しながら最適化が可能

64 Copyright 2025 NTT CORPORATION 例２：LPO システム同定例 ※ カメラの数が少数（3つ）の時の性能を検証真値
PAC-NeRF +LPO4 弾性体ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.89 × 106 ポアソン比 0.215 真値 PAC-NeRF 非ニュートン流体剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.51 × 104 体積弾性率 2.17 × 106 降伏応力 2.94 × 103 可塑性粘度 15.67 ヤング率 1.15 × 106 ポアソン比 0.299 剛性率 1.26 × 104 体積弾性率 1.32 × 106 降伏応力 3.04 × 103 可塑性粘度 10.80 +LPO4 PSNR: 23.99 PSNR: 30.07 PSNR: 27.43 PSNR: 30.23 3次元形状の復元精度と物理パラメータの推定精度をともに改善 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 動画：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/lpo/

65 Copyright 2025 NTT CORPORATION 例３：GIC Gaussian-Informed Continuum (GIC) [Cai+2024]
• 3DGS [Kerbl+2023] による３次元表現＋ MPMによる物理シミュレーション J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024.

J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 1：動画全体で３次元形状を最適化モーション分解型動的3D Gaussian Networkを使って投影動画と観測動画の差が小さくなるように3D Gaussianを最適化ポイント１：モーションを複数の基底の集合で表現ポイント２：モーションの差分をモデル化

J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 2：連続体の算出と表面の抽出物理シミュレーションを行うため連続体を算出、また、表面も抽出し目的関数の算出に利用

J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 3：物理パラメータの最適化 MPMによるシミュレーション結果と対象データの差が小さくなるように物理パラメータを最適化ポイント物体の２次元マスクに加えて３次元表面も一致するようにすることで高精度化

69 Copyright 2025 NTT CORPORATION 例３：GIC アプリケーション例 J. Cai et
al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値再構成＋未来予測軟質化初期速度の変更真値再構成＋未来予測硬質化重力ゼロ化一度モデルが学習できれば未来予測や物理量を変えた時のシミュレーションなどが可能真値再構成＋未来予測液化可塑化真値再構成＋未来予測弾性体化可塑化動画：https://jukgei.github.io/project/gic/

70 Copyright 2025 NTT CORPORATION PAC-NeRF, LPO, GICの限界物体は密であることを仮定 •
見た目は同じだけれども内部構造が異なる物体があった場合 › 常に密の物体（左側）を仮定し、中空の物体（右側）は対応困難 ↑ 密であること（こちら）を仮定 ↑ 中空の物体は対応困難 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .

71 Copyright 2025 NTT CORPORATION 内部形状のReverse Engineering 問題：Structure from Collision
(SfC) [Kaneko+2025] • 衝突時の外部形状の変化から内部形状を推定 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . 観測データ多視点動画カメラパラメータ推定対象内部形状観測データを再現できるように内部形状を最適化観測データ多視点動画カメラパラメータ推定対象内部形状観測データを再現できるように内部形状を最適化動画：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/

72 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF
(SfC-NeRF) [Kaneko+2025] • モデルはPAC-NeRFと同様（Voxel NeRF [Sun+2022] による３次元表現＋ DIffMPM [Hu+2020] による物理シミュレーション） • 最適化方法が異なる T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .

73 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF
(SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 1：初期フレームの外部形状を最適化（PAC-NeRFと同様）投影画像と観測画像の差が小さくなるように初期フレームの３次元形状を最適化

74 Copyright 2025 NTT CORPORATION ポイント4：体積アニーリング定期的に膨張処理を行うことで局所解から脱却 SfC-NeRF
Structure from Collision NeRF (SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 2：初期フレームの内部形状を最適化（SfC-NeRFで導入） MPMによるシミュレーション結果と観測動画の差が小さくなるように初期フレームの３次元形状を最適化ポイント１：画像損失投影動画と観測動画の差を最小化ポイント2：外部形状保持損失 Step 2で内部形状を最適化する過程で Step 1で得た外部形状が保持されるように制約ポイント3：質量損失質量が分かっている場合は推定質量と観測質量の差を最小化

75 Copyright 2025 NTT CORPORATION SfC-NeRF 内部形状の推定例 T. Kaneko, “Structure
from Collision,” CVPR 2025 to appear . 観測データ真値内部形状の最適化なし内部形状の最適化あり観測データ真値内部形状の最適化なし内部形状の最適化あり観測データ真値内部形状の最適化なし内部形状の最適化あり観測データ真値内部形状の最適化なし内部形状の最適化あり動画だけから物体内部の空洞の大きさ・偏りを推定動画：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/

76 Copyright 2025 NTT CORPORATION ここまでのまとめメイントピック • Forward Engineering
› 静止画 → ダイナミクスを生成 • Reverse Engineering › 動画 → 内部状態の推定物理モデル PhysGaussian 物理モデルを組み込むことで物理的に整合性のあるダイナミクスを生成 PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比物理モデル物理モデル SfC-NeRF 内部形状物理モデルを組み込むことで物理的制約下で内部状態を推定

77 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2.
Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow

79 Copyright 2025 NTT CORPORATION Video Diffusionの導入：PhysDreamer Physics-Based Simulation +
Video Diffusion Prior [Zhang+2024] • Q. 静止画だけからReverse Engeneering（物理パラメータの推定）するためには？ → A. Video Diffusionで動画を生成して動画のPriorとして利用 T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024.

Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得

Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2：Image-to-Video Video Diffusionを使って画像から動画を生成し動画のPriorとして利用

Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2：Image-to-Video Video Diffusionを使って画像から動画を生成し動画のPriorとして利用 Step 3：物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの生成動画の差が小さくなるように物理パラメータを最適化

83 Copyright 2025 NTT CORPORATION Video Diffusionの導入：PhysDreamer ダイナミクス生成例 T. Zhang
et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. 実データ PhysDreamer PhysGaussian DreamGaussian4D 静止画だけからより自然なダイナミクスを生成動画：https://physdreamer.github.io/

85 Copyright 2025 NTT CORPORATION MMFMの導入：PhysFlow MPM + Video Diffusion
+ Muti-modal Foundation Models [Liu+2025] • Q. 物理パラメータのよい初期値を得るためには？ → A. Multi-modal Foundation Models (MMFMs) を利用 Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear .

+ Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得

+ Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2：Image-to-Video（オプション：入力が静止画の場合） Video Diffusionを使って画像から生成した動画をPriorとして利用（入力が動画の場合は、その動画をそのまま利用）

+ Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3：物理パラメータの初期値の獲得 MMFMを用いて画像から物理パラメータの初期値を獲得 Step 2：Image-to-Video（オプション：入力が静止画の場合） Video Diffusionを使って画像から生成した動画をPriorとして利用（入力が動画の場合は、その動画をそのまま利用）

+ Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1：３次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3：物理パラメータの初期値の獲得 MMFMを用いて画像から物理パラメータの初期値を獲得 Step 4：物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの生成動画の差が小さくなるように物理パラメータを最適化 Step 2：Image-to-Video（オプション：入力が静止画の場合） Video Diffusionを使って画像から生成した動画をPriorとして利用（入力が動画の場合は、その動画をそのまま利用）

90 Copyright 2025 NTT CORPORATION MMFMの導入：PhysFlow ダイナミクス生成例 Z. Liu et
al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . 入力画像 PhysFlow PhysGaussian PhysDreamer Physics3D 静止画だけからさらに自然なダイナミクスを生成動画：https://zhuomanliu.github.io/PhysFlow/

92 Copyright 2025 NTT CORPORATION まとめ研究課題 • 光学・物理的に自然な動画の生成にはまだ課題が存在事前知識
• 光学原理に基づくモデル（NeRF, 3DGS） • 物理原理に基づくモデル（MPM）メイントピック：光学・物理原理に基づくモデル • Forward Engeneering：静止画→ダイナミクス生成（PhysGaussian） • Reverse Engeneering：動画→内部状態の推定（PAC-NeRF, LPO, GIC, SfC-NeRF）発展的な話題 • Video Diffusionの活用（PhysDreamer） • Multi-modal Foundation Modelの活用（PhysFlow）非常に活発な研究領域で他にも様々な興味深い研究あり

93 Copyright 2025 NTT CORPORATION 今後の展望自然性の更なる改善 • 自然性は向上しているがまだ改善の余地あり実データでの性能向上
• 物理モデルの改善が進んでいるがまだ実現象との乖離あり PhysFlowの論文より引用最新の手法（PhysFlow@CVPR2025）でも主観評価（5段階評価）で4未満最新の手法（SpringGaus@ECCV2024）でも実現象の完璧な再現は困難動画：https://zlicheng.com/spring_gaus/

94 Copyright 2025 NTT CORPORATION 関連情報 • 金子の研究紹介ページ › https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/
音声合成音声変換 CFGAN [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成画像生成音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]

SSII2025 [TS1] 光学・物理原理に基づく深層画像生成

SSII2025 [TS1] 光学・物理原理に基づく深層画像生成

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript