Upgrade to Pro — share decks privately, control downloads, hide ads and more …

HiMoR: Monocular Deformable Gaussian Reconstruc...

HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation

- 変形場に階層構造を導入することで、単眼動画からでも一貫性の高い4D再構成を実現
- ピクセル単位のずれがあっても適切に評価できるよう、CLIPを用いた評価指標を使用することを提案

Avatar for Spatial AI Network

Spatial AI Network

June 23, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. 1 HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation

    Yiming Liang1, Tianhan Xu2, Yuta Kikuchi2 1Waseda University, 2Preferred Networks, Inc. CVPR 2025 arXiv: https://arxiv.org/abs/2504.06210 Project Page: https://pfnet-research.github.io/himor/ Code: https://github.com/pfnet-research/himor Spatial AI 勉強会 2025/06/03 発表者: Yiming Liang (梁 毅明) 早稲田大学 石川研究室 M2
  2. 概要 2 解いているタスク: • Monocular 4D reconstruction • 入力: 一つのカメラから撮影したビデオ(カメラパラメータは既知)

    • 出力: 各時刻で新しい視点からレンダリングできる4Dモデル(3Dモデル+時間依存の変 形場) 既存手法の問題: • 対象物が入力ビデオから遮蔽されると、遮蔽される時刻で対象物の形が崩れてしまう • 変形場の設計が適切ではないことが原因 → 階層構造を使った変形場HiMoR (=Hierarchical Motion Representation) を提案 入力 SoM
  3. 関連研究: Shape of Motion (SoM) 3 • 20本のSE(3)の軌道Motion Baseが全てのGaussianに共有される •

    物体の動きは三次元空間で滑らかであることを仮定 • 各Gaussianは一つのMotion Coefficientを持っている • 各Gaussianの軌道はMotion BaseのMotion Coefficientによる線形補間 • 初期化、最適化に単眼深度、2Dトラッキング、前景マスクを使用 Shape of Motion: 4D reconstruction from a Single Video [arXiv 2024/07]
  4. 関連研究: Motion Scaffold (MoSca) 4 • 一層のノードで変形場を表現 • 各ノードが独立なSE(3)の軌道を持っている •

    各Gaussianの軌道は近くにあるノードの軌道の補間 • 初期化、最適化に単眼深度、2Dトラッキング、前景マスクを使用 MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds [CVPR 2025]
  5. HiMoR: 階層構造 6 • 2層のツリー状のノードグラフ • 1層目: 物体全体の大まかな動き、剛体 • 2層目:

    局所的な細かい動き、非剛体 • 子ノードは親ノードを基準に定義される
  6. HiMoR: Motion basesの共有 7 • SE(3)のMotion basesを使用→軌道が滑らかになる • 親ノードが同じノードの間で共有 •

    各ノードは重みづけ係数Motion coefs.を持っている Overall motion Relative local motion
  7. HiMoR: Node Densification 11 1. GaussianとNode間のCurve distanceを計算する • Curve distance:

    2点が最も離れている時刻における距離 2. Curve distanceが閾値よりも大きいGaussianを選択 3. 選択したGaussianからノードをサンプリングする
  8. HiMoR: Multi-level Rigidity loss 13 • Rigidity Loss • 近い2フレーム間で2点間の位置関係が一定になる

    • 剛体変換になる • Lossの重みが大きすぎると、ディティールが失われる • Lossの重みが小さすぎると、形が崩れてします → HiMoRの階層によって重みを変えればよい 大きい重み: 全体の形を維持 小さい重み:ディティールを表現できるように
  9. HiMoRの最適化 14 • 損失関数 𝐿𝑡𝑜𝑡𝑎𝑙 = 𝜆𝑟𝑔𝑏 𝐿𝑟𝑔𝑏 + 𝜆𝑚𝑎𝑠𝑘

    𝐿𝑚𝑎𝑠𝑘 + 𝜆𝑑𝑒𝑝𝑡ℎ 𝐿𝑑𝑒𝑝𝑡ℎ + 𝜆𝑡𝑟𝑎𝑐𝑘 𝐿𝑡𝑟𝑎𝑐𝑘 + 𝜆𝑟𝑖𝑔𝑖𝑑 𝐿𝑟𝑖𝑔𝑖𝑑 前景マスク 単眼深度 2Dトラッキング 前景マスク:Track Anything 単眼深度: DepthAnything 2D トラッキング: TAPIR ↑SoMと同じものを使っている
  10. データセット: iPhone 15 • シーンは5個 • Apple, Block, Paper-windmill, Spin(下の例),

    Teddy 入力動画 評価視点1 評価視点2 • 評価指標 • CLIP-I, CLIP-T, LPIPS, PCK-T(キーポイントトラッキング)
  11. CLIPによる評価指標 17 • CLIPーI (Image) • Novel View Synthesisの性能を評価 CLIP

    embedding コサイン類似度 Ground Truth レンダリングした画像
  12. CLIPによる評価指標 18 • CLIPーT (Time) • 時間軸の一貫性を評価 CLIP embedding コサイン類似度

    レンダリングした画像 時刻𝒕 レンダリングした画像 時刻𝒕 + ∆𝒕
  13. データセット: nvidia 19 • シーンは7個 • Balloon1, Balloon2, Jumping, Playground,

    Skating, Truck, Umbrella 入力動画 評価視点2 評価視点3 評価視点1 • 評価指標 • PSNR, SSIM, LPIPS
  14. 実験結果: Ablation Studies 26 • Baseline: MoSca-like 一層のノードの手法 • +:

    各テクニックが段階的に適用されることを示している
  15. 実験結果 27 Novel View 1 + Motion bases + Hierarchical

    structure + Rigidity loss + Nodes densification (Full) Novel View 2 GT Baseline
  16. 実験結果: Ablation Studies 28 • [a, b] • a: 一層目のMotion

    basesの数 • b: 二層目のMotion basesの数 • Half • ノードが半分 • Double • ノードが2倍
  17. Discussion 30 • Dust3R系のFeed-forward 4D reconstructionがトレンドになる? • CUT3R, Dynamic Point

    Map, St4RTrack • すべての時刻に対して点群を出力することを4D再構築と言えるか? • Video Diffusion? • Novel view synthesisだけならVideo Diffusionの方がいいかも • 4D再構築の応用先? Continuous 3D Perception Model with Persistent State [CVPR 2025] Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [arXiv 2025/03] St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [arXiv 2025/04]
  18. Appendix: Motion bases/coefs.の初期化 31 • 点群でalignした単眼深度を使って、2Dトラッキングを3Dトラッキングにする • 見えるトラッキングの数が最も多いフレームをCanonical Frameとする •

    各トラックの各時刻における速度を特徴量として、Kーmeansでクラスタリング • クラス数はMotion basesの数 • 各クラスタのMotion basesを求める • 中心の平行移動がMotion baseの平行移動 • 時間方向でProcrustes問題を解いて、回転をMotion basesの回転と する • Motion coefs.の初期値はクラスタ中心への距離の逆数 t t + 1 Sim(3) クラスタリング Procrustes 問題
  19. Appendix: Motion bases/coefs.の初期化2層目 32 • 各葉ノードについて • 周辺のGaussianの葉ノードに対する相対SE(3)系列を計算 • 相対SE(3)系列をK-Meansでクラスタリング

    • 各クラスタについて • クラスタ中心はGaussianの中心の平均 • そのクラスタのMotio basesはGaussianの相対SE(3)系列の平均 • Procrustes問題を解く必要はない。 • 葉ノードの周辺に2層目のノードを配置 • 2層目のノードが持つMotion coefs.の初期値は各クラスタ中心への距離の逆数 葉ノード