Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dynamic Point Maps: A Versatile Representation ...

Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction

- DUSt3Rを動的なシーンにも適用できるように拡張
- 2枚の画像と2時点の全ての組み合わせについて点マップを推定
- 先行研究のMonST3Rと同等以上のパフォーマンスを達成

Avatar for Spatial AI Network

Spatial AI Network

May 15, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction

    辻 栄翔(京都大学) Spatial AI Network勉強会, 2025.4.22 https://www.robots.ox.ac.uk/~vgg/research/dynamic-point-maps/ Edgar Sucar, Zihang Lai, Eldar Insafutdinov, Andrea Vedaldi
  2. DUSt3Rのおさらい • 点マップ:画像の各画素𝑢と、カメラ座標系𝜋における3D点𝑝 ∈ ℝ3の対応付け • 𝑝 = (𝑥, 𝑦,

    𝑧)のベクトルであり、カメラの内部パラメタの情報を含む • 深度マップ(画素ごとのカメラからの距離)よりも情報が多い* • 画像ペア 𝐼1 , 𝐼2 で、以下の不変性が成立** • ネットワーク𝜙の入出力は以下の通り 3 𝑃 𝜋 ∈ ℝ3×(𝐻𝑊) 𝑃1 𝜋1 (𝑢1 ) = 𝑃2 (𝜋1 )(𝑢2 ) 静的シーンでは、どのカメラから見ても 対応する画素は同じ3D空間上の位置を示す ( 𝑃1 𝜋1 , 𝑃2 𝜋1 ) = 𝜙(𝐼1 , 𝐼2 ) 厳密な議論は*Appendix A.1、**A.2にあり
  3. MonST3Rによる動的シーンへの拡張 • MonST3R:Optical Flowと組み合わせて、DUSt3Rを動的シーンにも適用できるように拡張 • 問題点: 3D点マップの対応付けが直接行なわれていないこと • 処理パイプラインが複雑で、DUSt3Rの強みであった”誤差の蓄積がない”とは言い難い •

    DUSt3Rで推定した点マップにRAFTを適用するため、途中でカメラ姿勢を推定 • 時間的な一貫性を保つために複数フレームの統合処理 5 Zhang et al., MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion, ICLR, 2025
  4. Dynamic Point Mapsのアイデア: 時間の固定 • 座標系𝜋に加えて時間tも固定し、時空間で不変性を担保する制約を提案 • 画像𝑖 = 1,

    2と時間𝑡 = 1, 2の全4通りの組み合わせに対して点マップを定義 6 𝑃1 𝑡1 , 𝜋1 (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 p4ではtも変化させたため 等式が成立しなかった 𝑃𝑖 𝑡𝑗 , 𝜋1 𝑖,𝑗 ∈{1,2}
  5. ネットワーク構造 • 画像𝑖 = 1, 2と時間𝑡 = 1, 2の全組合わせに対し、点マップ𝑃と確信度𝐶を出力できるように DUSt3Rに予測ヘッド𝜙𝑖𝑗

    を追加 • ヘッドそれぞれの重み初期化にはDUSt3rのものを利用 • 共有のbackboneからの出力される特徴をFとすると、以下で表現可能 7 𝑃𝑖 𝑡𝑗 , 𝜋1 , 𝐶𝑖 𝑡𝑗 , 𝜋1 = 𝜙𝑖𝑗 𝐹 𝑖, 𝑗 ∈ {1, 2}
  6. 実験結果: Scene Flowの推定精度 • 𝑃1 𝑡2 , 𝜋1 − 𝑃1

    𝑡1 , 𝜋1 より、簡単にScene Flowの計算が可能 • MonST3Rと比較して76%の誤差削減に成功 • optical flowを用いたワープ処理よりも、時空間の不変性を学習した方が高精度と主張 • 深度のGTを入力に用いたRAFT-3Dよりも高精度 12
  7. まとめ・所感 • まとめ • 画像ペアから直接4D再構成タスクを解く単一のニューラルネットワークを提案 • 点マップを動的シーンへ拡張するため、𝑃1 𝑡1 , 𝜋1

    (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 の時空間の不変性を提案 • 先行研究のMonST3Rと同等以上のパフォーマンスを達成 • Optical Flowを介した2D上での推定よりも、直接3D空間中の点を回帰した方が精度が高い • 所感 • MonST3Rよりも処理が大幅に簡素化されており、DUSt3Rの拡張感を強く感じた • 深度を入力するRAFT-3Dよりも高精度にシーンフロー推定ができるのは驚き • 学習コスト(マシン、詳細な学習設定)が不明で気になる • Project pageにcodeボタンはあるが、まだ公開されていない 15