Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fas...

Avatar for abemii_ abemii_
August 24, 2025

[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos (Li+, CVPR2025)

2025/08/24 に開催された CV勉強会@関東 CVPR2025 読み会の資料です。

紹介する論文:
Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely. MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos. CVPR, 2025.

arXiv:
https://arxiv.org/abs/2412.04463

project page:
https://mega-sam.github.io/

Avatar for abemii_

abemii_

August 24, 2025
Tweet

More Decks by abemii_

Other Decks in Technology

Transcript

  1. 紹介する論⽂: MegaSaM: Accurate, Fast, and Robust Structure and Motion from

    Casual Dynamic Videos Zhengqi Li1 Richard Tucker1 Forrester Cole1 Qianqian Wang1,2 Linyi Jin1,3 Vickie Ye2 Angjoo Kanazawa2 Aleksander Holynski1,2 Noah Snavely1 (1Google DeepMind 2UC Berkeley 3University of Michigan) CVPR 2025 (Best Paper Honorable Mention) Michiya Abe @abemii_ Aug. 24, 2025. コンピュータビジョン勉強会@関東 CVPR2025 読み会 (後編) ※資料中の図表等は特に記載 のない限り上記論⽂から引⽤
  2. 2 ⾃⼰紹介 19/09 修⼠ (情報理⼯学系研究科) 19/10 ~ 24/12 SenseTime Japan

    ⾃動運転向けの⾞載カメラ画像認識の研究開発 25/01 ~ Turing End-to-End の完全⾃動運転モデルの開発 阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴 興味のある領域 End-to-End ⾃動運転,量⼦化,⾼速化 など ※本発表は所属する組織と 関係しません。
  3. 9 • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバル バンドル調整

    • ⼀貫性を課した動画深度最適化 などの⼯夫により… ⽇常動画(低パララックス‧動的‧内部パラメータ未知)でも カメラ姿勢‧深度マップの推定を⾼精度にできるようにした 合成データ‧実データを含む 3 種類のベンチマークで SOTA or 同等程度の 精度を達成 本論⽂の位置づけと貢献
  4. 10 ⼿法|全体パイプライン … … 動画 ⼊⼒ 出⼒ G i :

    各フレームの カメラ姿勢 d i : 各フレームの 密な視差マップ f : 焦点距離 バンドル調整 前段(⼩窓)‧後段(全体)の ⼆段構え 仕上げ カメラ固定で動画深度を⼀貫化 出来合いの単眼深度推定器で (DepthAnything, UniDepth) 深度マップを初期化
  5. 11 ⼿法|【前段】深層 SLAM (DROID-SLAM 拡張) オプティカル フロー 信頼度 F (i)

    (j) 畳み込みGRU F で再帰的にフレーム i → j の オプティカルフローと信頼度マップを予測 剛体運動から導いた幾何⼀貫な オプティカルフロー オプティカル フロー 2つのオプティカルフローの残差を LM 法で 最⼩化 G : カメラ姿勢 d : 密な視差マップ f : 焦点距離 重み
  6. 12 動いている物体の影響を抑制したい → とりあえず動的な動画で学習すれば勝⼿に物体の領 域の信頼度が下がるのでは? → そうはならなかった(不安定化) → 動き領域の画素を予測し、それを重み付けに反映 動的物体の領域を予測するモデル

    F m を導⼊し、 動き画素マップ m i を予測 m i で最終的な重みを更新 ⼿法|【前段】モーション確率マップ F m m i 動き画素 マップ N(i) は隣接 フレーム … … (i) 重み
  7. 13 視差マップ d を DROID-SLAM と同じように 1 で初期化するだけでは、 短いカメラのベースラインや、複雑な動的シーンに対応できなかった。 →

    初期値として出来合いの単眼深度推定器 (DepthAnything, UniDepth) を⽤いた ⼿法|【前段】視差マップの初期化 単眼深度推定の初期化なし 単眼深度推定の初期化あり Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything: Unleashing the power of large-scale unlabeled data. In CVPR, 2024 Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, and Fisher Yu. UniDepth: Universal monocular metric depth estimation. In CVPR, 2024.
  8. 14 静的データと動的データの 2 段階で学習する • 1. 静的データでフロー‧信頼度を出⼒する F を、カメラ姿勢+オプティカルフローを教師とし て学習

    • 2. 動的データでネット F m に動き確率マップを学習させる(カメラ損失+交差エントロピー) → 2 段階に分離することで、動的要素の影響を受けにくい安定な BA 学習を実現 ⼿法|【前段】学習⽅法
  9. 15 後段モジュール: すべての動画フレームに対してグローバルなバンドル調整を⾏って精緻化 1. すべてのキーフレームに対して、グローバルバンドル調整を実⾏ 2. ポーズグラフを最適化し、⾮キーフレームの姿勢を登録 3. 最後にすべての動画フレームに対してグローバルバンドル調整を実⾏ 出来合いの単眼深度推定器の出⼒を正則化に使う仕組みを⼊れるべきか?

    → 部分的に No(すべてに使うと、かえって悪化する) → 観測から視差や焦点距離が⼗分決まらない(不確実性が⾼い)と判定されたときのみ、 単眼深度の正則化を有効化、焦点距離の最適化を無効化(固定)する。 ⼿法|【後段】不確実性駆動グローバルバンドル調整
  10. 16 カメラの姿勢‧焦点距離を推定後、それらを固定し、 各フレームの視差とフレームごとの不確実性を追加で最適化 ⼿法 | 【仕上げ】⼀貫性のある動画深度最適化 コスト関数 • 2D のフローの再投影損失

    • 時系列での深度の⼀貫性損失 • スケール不変な単眼深度事前分布の損失 (最終的に推定された動画の視差が単眼深度 推定モデルの出⼒と乖離しすぎないように)
  11. 17 実験 | データセットと評価指標 Sintel(合成、動きが複雑) DyCheck (実写‧動的) In-the-Wild (DynIBaR の評価で使われていた実動画)

    D. J. Butler, J. Wulff, G. B. Stanley, M. J. Black. A naturalistic open source movie for optical flow evaluation. ECCV, 2012. Hang Gao, Ruilong Li, Shubham Tulsiani, Bryan Russell, Angjoo Kanazawa. Monocular dynamic view synthesis: A reality check. NeurIPS, 2022. Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely. DynIBaR: Neural Dynamic Image-Based Rendering. CVPR, 2023. 定量評価指標 カメラの姿勢 : ATE / RTE / RRE(絶対‧相対の並進誤差、相対回転誤差) 深度 : Abs-Rel / log-RMSE / δ 平均実⾏時間 :総時間÷フレーム数で秒/フレームとして⽐較 評価⽤データセット (テスト時のFTなどはなし) 学習⽤データセット • 1 段階⽬ (静的): TartanAir (163) + static Kubric (5k) • 2 段階⽬ (動的): dynamic Kubric (11k)
  12. 22 まとめ • 深層 SLAM の枠組みを拡張 • モーションの確率マップと単眼深度の事前分布を統合 • 可観測性に基づく不確実性を考慮したグローバル

    バンドル調整 • ⼀貫性を課した動画深度最適化 などの⼯夫により… ⽇常動画(低パララックス‧動的‧内部パラメータ未知)でも カメラ姿勢‧深度マップの推定を⾼精度にできるようにした 合成データ‧実データを含む 3 種類のベンチマークで SOTA or 同等程度の 精度を達成
  13. 23 Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi

    Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely. MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos. CVPR, 2025. Z. Teed, J. Deng. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras. NeurIPS, 2021. Zhoutong Zhang, Forrester Cole, Zhengqi Li, Noah Snavely, Michael Rubinstein, and William T. Freeman. Structure and Motion from Casual Videos. ECCV, 2022. Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang. MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion. ICLR, 2025. Hexuan Dou, Xinyang Zhao, Bo Liu, Yinghao Jia, Guoqing Wang, Changhong Wang. Enhancing Real-Time Visual SLAM with Distant Landmarks in Large-Scale Environments. Drones. 2024. D. J. Butler, J. Wulff, G. B. Stanley, M. J. Black. A naturalistic open source movie for optical flow evaluation. ECCV, 2012. Hang Gao, Ruilong Li, Shubham Tulsiani, Bryan Russell, Angjoo Kanazawa. Monocular dynamic view synthesis: A reality check. NeurIPS, 2022. Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely. DynIBaR: Neural Dynamic Image-Based Rendering. CVPR, 2023. Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything: Unleashing the power of large-scale unlabeled data. In CVPR, 2024 Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, and Fisher Yu. UniDepth: Universal monocular metric depth estimation. In CVPR, 2024. 参考⽂献