[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos (Li+, CVPR2025)

紹介する論⽂： MegaSaM: Accurate, Fast, and Robust Structure and Motion from
Casual Dynamic Videos Zhengqi Li1 Richard Tucker1 Forrester Cole1 Qianqian Wang1,2 Linyi Jin1,3 Vickie Ye2 Angjoo Kanazawa2 Aleksander Holynski1,2 Noah Snavely1 (1Google DeepMind 2UC Berkeley 3University of Michigan) CVPR 2025 (Best Paper Honorable Mention) Michiya Abe @abemii_ Aug. 24, 2025. コンピュータビジョン勉強会@関東 CVPR2025 読み会 (後編) ※資料中の図表等は特に記載のない限り上記論⽂から引⽤

2 ⾃⼰紹介 19/09 修⼠ (情報理⼯学系研究科) 19/10 ~ 24/12 SenseTime Japan
⾃動運転向けの⾞載カメラ画像認識の研究開発 25/01 ~ Turing End-to-End の完全⾃動運転モデルの開発阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴興味のある領域 End-to-End ⾃動運転，量⼦化，⾼速化など ※本発表は所属する組織と関係しません。

3 ⽇常動画から、⾼速かつ正確にカメラと密な構造を推定したい • ⼿持ちカメラ‧低パララックス‧内部パラメータ未知‧動的物体ありどんな論⽂？ https://mega-sam.github.io/

4 SfM/SLAM は静的‧⼗分なパララックスが前提（となることが多い） → 低パララックス/動的シーン/内部パラメータが未知の状況で破綻しやすい背景 | 従来のアプローチ

5 視差が⼩さい（基線短い‧遠距離‧純回転に近い）ほど、三⾓測量で得られる深度の不確かさが増⼤する背景 | 低パララックス（カメラ位置がほとんど動かない場合など） Hexuan Dou, Xinyang Zhao,
Bo Liu, Yinghao Jia, Guoqing Wang, Changhong Wang. Enhancing Real-Time Visual SLAM with Distant Landmarks in Large-Scale Environments. Drones. 2024.

6 • 動画を⼊⼒とし、全キーフレームの姿勢と密な深度と地図を出⼒するモデル • 密なバンドル調整 (DBA) 層で、ガウス-ニュートン更新で姿勢と各画素の深度を同時に更新していく • ただし、カメラの内部パラメータは既知である必要がある
→ 本論⽂では、未知の内部パラメータに対応できるように拡張！既存研究 | DROID-SLAM [Teed+, NeurIPS21]

7 • ⽇常動画（低パララックス∕動的物体あり∕短い）から、カメラ姿勢＋焦点距離＋密な深度マップ＋モーションマップをグローバルに同時最適化 • このような動画は従来の SfM では破綻しやすいが、単眼深度の事前分布とオプティカルフローで補う。 •
推論時のオフライン最適化（モデルの⼀部も更新）で計算が重い → 本論⽂では、モデルの更新を伴わないため⾼速化！既存研究 | CasualSAM [Zhang+, ECCV22]

8 • DUSt3R の系譜で、2 枚の画像から基準座標系上の点群を直接出す表現を、動的向けにファインチューンして適⽤。 • 動作が⾼速で、動的シーンにも対応できる。 • 本研究も、似たようなアイディアを共有。
既存研究｜MonST3R [Zhang+, ICLR25]

9 • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバルバンドル調整
• ⼀貫性を課した動画深度最適化などの⼯夫により… ⽇常動画（低パララックス‧動的‧内部パラメータ未知）でもカメラ姿勢‧深度マップの推定を⾼精度にできるようにした合成データ‧実データを含む 3 種類のベンチマークで SOTA or 同等程度の精度を達成本論⽂の位置づけと貢献

10 ⼿法｜全体パイプライン … … 動画⼊⼒出⼒ G i :
各フレームのカメラ姿勢 d i : 各フレームの密な視差マップ f : 焦点距離バンドル調整前段(⼩窓)‧後段(全体)の⼆段構え仕上げカメラ固定で動画深度を⼀貫化出来合いの単眼深度推定器で (DepthAnything, UniDepth) 深度マップを初期化

11 ⼿法｜【前段】深層 SLAM (DROID-SLAM 拡張) オプティカルフロー信頼度 F (i)
(j) 畳み込みGRU F で再帰的にフレーム i → j のオプティカルフローと信頼度マップを予測剛体運動から導いた幾何⼀貫なオプティカルフローオプティカルフロー 2つのオプティカルフローの残差を LM 法で最⼩化 G : カメラ姿勢 d : 密な視差マップ f : 焦点距離重み

12 動いている物体の影響を抑制したい → とりあえず動的な動画で学習すれば勝⼿に物体の領域の信頼度が下がるのでは？ → そうはならなかった（不安定化） → 動き領域の画素を予測し、それを重み付けに反映動的物体の領域を予測するモデル
F m を導⼊し、動き画素マップ m i を予測 m i で最終的な重みを更新⼿法｜【前段】モーション確率マップ F m m i 動き画素マップ N(i) は隣接フレーム … … (i) 重み

13 視差マップ d を DROID-SLAM と同じように 1 で初期化するだけでは、短いカメラのベースラインや、複雑な動的シーンに対応できなかった。 →
初期値として出来合いの単眼深度推定器 (DepthAnything, UniDepth) を⽤いた⼿法｜【前段】視差マップの初期化単眼深度推定の初期化なし単眼深度推定の初期化あり Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything: Unleashing the power of large-scale unlabeled data. In CVPR, 2024 Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, and Fisher Yu. UniDepth: Universal monocular metric depth estimation. In CVPR, 2024.

14 静的データと動的データの 2 段階で学習する • 1. 静的データでフロー‧信頼度を出⼒する F を、カメラ姿勢＋オプティカルフローを教師として学習
• 2. 動的データでネット F m に動き確率マップを学習させる（カメラ損失＋交差エントロピー） → 2 段階に分離することで、動的要素の影響を受けにくい安定な BA 学習を実現⼿法｜【前段】学習⽅法

15 後段モジュール：すべての動画フレームに対してグローバルなバンドル調整を⾏って精緻化 1. すべてのキーフレームに対して、グローバルバンドル調整を実⾏ 2. ポーズグラフを最適化し、⾮キーフレームの姿勢を登録 3. 最後にすべての動画フレームに対してグローバルバンドル調整を実⾏出来合いの単眼深度推定器の出⼒を正則化に使う仕組みを⼊れるべきか？
→ 部分的に No（すべてに使うと、かえって悪化する） → 観測から視差や焦点距離が⼗分決まらない（不確実性が⾼い）と判定されたときのみ、単眼深度の正則化を有効化、焦点距離の最適化を無効化（固定）する。⼿法｜【後段】不確実性駆動グローバルバンドル調整

16 カメラの姿勢‧焦点距離を推定後、それらを固定し、各フレームの視差とフレームごとの不確実性を追加で最適化⼿法 | 【仕上げ】⼀貫性のある動画深度最適化コスト関数 • 2D のフローの再投影損失
• 時系列での深度の⼀貫性損失 • スケール不変な単眼深度事前分布の損失（最終的に推定された動画の視差が単眼深度推定モデルの出⼒と乖離しすぎないように）

17 実験 | データセットと評価指標 Sintel（合成、動きが複雑） DyCheck (実写‧動的) In-the-Wild (DynIBaR の評価で使われていた実動画)
D. J. Butler, J. Wulﬀ, G. B. Stanley, M. J. Black. A naturalistic open source movie for optical ﬂow evaluation. ECCV, 2012. Hang Gao, Ruilong Li, Shubham Tulsiani, Bryan Russell, Angjoo Kanazawa. Monocular dynamic view synthesis: A reality check. NeurIPS, 2022. Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely. DynIBaR: Neural Dynamic Image-Based Rendering. CVPR, 2023. 定量評価指標カメラの姿勢： ATE / RTE / RRE（絶対‧相対の並進誤差、相対回転誤差）深度： Abs-Rel / log-RMSE / δ 平均実⾏時間：総時間÷フレーム数で秒/フレームとして⽐較評価⽤データセット (テスト時のFTなどはなし) 学習⽤データセット • 1 段階⽬ (静的): TartanAir (163) + static Kubric (5k) • 2 段階⽬ (動的): dynamic Kubric (11k)

18 実験｜結果（定量評価：カメラ姿勢と深度推定）合成‧実写の両⽅、かつ、焦点距離の初期値が与えられたかどうかに依らず、既存⼿法を上回ったまた、推論時間も既存⼿法より⾼速 Sintel（合成、動きが複雑） DyCheck (実写‧動的) In-the-Wild (DynIBaR の評価で使われていた実動画)
深度推定結果も既存⼿法より良好

19 実験｜結果（カメラの軌跡）提案⼿法は他の⼿法に⽐べ、GT軌跡との⼀致度が⾼い

20 実験｜結果（可視化）カメラの運動として回転が主で、FOVが狭いデータ（より難しい）について可視化提案⼿法はうまく推定できていそう。

21 リミテーション動画全体を移動物体が⽀配する場合（上）や、物体の動きとカメラの動きが同じ⽅向の場合（⾃撮り動画など）（下）は難しい。他にも、ズーム（動画内で焦点距離が変化）や歪が強い場合は対応できていない。

22 まとめ • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバル
バンドル調整 • ⼀貫性を課した動画深度最適化などの⼯夫により… ⽇常動画（低パララックス‧動的‧内部パラメータ未知）でもカメラ姿勢‧深度マップの推定を⾼精度にできるようにした合成データ‧実データを含む 3 種類のベンチマークで SOTA or 同等程度の精度を達成

23 Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi
Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely. MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos. CVPR, 2025. Z. Teed, J. Deng. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras. NeurIPS, 2021. Zhoutong Zhang, Forrester Cole, Zhengqi Li, Noah Snavely, Michael Rubinstein, and William T. Freeman. Structure and Motion from Casual Videos. ECCV, 2022. Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang. MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion. ICLR, 2025. Hexuan Dou, Xinyang Zhao, Bo Liu, Yinghao Jia, Guoqing Wang, Changhong Wang. Enhancing Real-Time Visual SLAM with Distant Landmarks in Large-Scale Environments. Drones. 2024. D. J. Butler, J. Wulﬀ, G. B. Stanley, M. J. Black. A naturalistic open source movie for optical ﬂow evaluation. ECCV, 2012. Hang Gao, Ruilong Li, Shubham Tulsiani, Bryan Russell, Angjoo Kanazawa. Monocular dynamic view synthesis: A reality check. NeurIPS, 2022. Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely. DynIBaR: Neural Dynamic Image-Based Rendering. CVPR, 2023. Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything: Unleashing the power of large-scale unlabeled data. In CVPR, 2024 Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, and Fisher Yu. UniDepth: Universal monocular metric depth estimation. In CVPR, 2024. 参考⽂献

24 背景｜SfM/SLAM の流れ http://theia-sfm.org/sfm.html#global-sfm-pipeline

[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fas...

[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos (Li+, CVPR2025)

abemii_

More Decks by abemii_

Other Decks in Technology

Featured

Transcript

紹介する論⽂： MegaSaM: Accurate, Fast, and Robust Structure and Motion from

2 ⾃⼰紹介 19/09 修⼠ (情報理⼯学系研究科) 19/10 ~ 24/12 SenseTime Japan

3 ⽇常動画から、⾼速かつ正確にカメラと密な構造を推定したい • ⼿持ちカメラ‧低パララックス‧内部パラメータ未知‧動的物体ありどんな論⽂？ https://mega-sam.github.io/

4 SfM/SLAM は静的‧⼗分なパララックスが前提（となることが多い） → 低パララックス/動的シーン/内部パラメータが未知の状況で破綻しやすい背景 | 従来のアプローチ

5 視差が⼩さい（基線短い‧遠距離‧純回転に近い）ほど、三⾓測量で得られる深度の不確かさが増⼤する背景 | 低パララックス（カメラ位置がほとんど動かない場合など） Hexuan Dou, Xinyang Zhao,

8 • DUSt3R の系譜で、2 枚の画像から基準座標系上の点群を直接出す表現を、動的向けにファインチューンして適⽤。 • 動作が⾼速で、動的シーンにも対応できる。 • 本研究も、似たようなアイディアを共有。

9 • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバルバンドル調整

10 ⼿法｜全体パイプライン … … 動画⼊⼒出⼒ G i :

11 ⼿法｜【前段】深層 SLAM (DROID-SLAM 拡張) オプティカルフロー信頼度 F (i)

13 視差マップ d を DROID-SLAM と同じように 1 で初期化するだけでは、短いカメラのベースラインや、複雑な動的シーンに対応できなかった。 →

14 静的データと動的データの 2 段階で学習する • 1. 静的データでフロー‧信頼度を出⼒する F を、カメラ姿勢＋オプティカルフローを教師として学習

16 カメラの姿勢‧焦点距離を推定後、それらを固定し、各フレームの視差とフレームごとの不確実性を追加で最適化⼿法 | 【仕上げ】⼀貫性のある動画深度最適化コスト関数 • 2D のフローの再投影損失

17 実験 | データセットと評価指標 Sintel（合成、動きが複雑） DyCheck (実写‧動的) In-the-Wild (DynIBaR の評価で使われていた実動画)

19 実験｜結果（カメラの軌跡）提案⼿法は他の⼿法に⽐べ、GT軌跡との⼀致度が⾼い

20 実験｜結果（可視化）カメラの運動として回転が主で、FOVが狭いデータ（より難しい）について可視化提案⼿法はうまく推定できていそう。

22 まとめ • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバル

23 Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi

24 背景｜SfM/SLAM の流れ http://theia-sfm.org/sfm.html#global-sfm-pipeline