Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル

DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル

以下の3本の論文の紹介資料です
- DUSt3R: Geometric 3D Vision Made Easy [Wang+ 2024]
- Grounding Image Matching in 3D with MASt3R [Leroy+ 2024]
- MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion [Duisterhof+ 2024]

リンク:
p2. [Wang+ 2024] https://europe.naverlabs.com/research/publications/dust3r-geometric-3d-vision-made-easy/
p2. [Leroy+ 2024] https://europe.naverlabs.com/blog/mast3r-matching-and-stereo-3d-reconstruction/
p2. [Duisterhof+ 2024] https://europe.naverlabs.com/research/publications/mast3r-sfm-a-fully-integrated-solution-for-unconstrained-structure-from-motion/
p3. [微分可能レンダリング (CVIM研究会 チュートリアル 2022)] https://speakerdeck.com/hkato/wei-fen-ke-neng-rendaringu-cvimyan-jiu-hui-tiyutoriaru
p3. [ニューラル3D表現の最新動向 (SSII 2022)] https://www.slideshare.net/slideshow/ssii2022-ss1-3d/251933608
p3. [三次元構造を考慮した画像生成 (情報処理学会 連続セミナー2023)] https://docs.google.com/presentation/d/1eQUf-fKFj1o3lGxPGFxyqHZTYAl9k85XRg2BPE2F9nc/edit#slide=id.p
p3. [三次元再構成 (東京大学大学院『知能情報論』 2024)] https://speakerdeck.com/pfn/20240613-utokyo-intelligent-informatics
p3. [web] https://hiroharu-kato.com/
p3. [Google Scholar] https://scholar.google.co.jp/citations?user=RHV5YCkAAAAJ
p3. [Twitter] https://x.com/hiroharu_kato
p4. [※1] https://bookplus.nikkei.com/atcl/catalog/23/02/09/00670/
p4. [※2] https://www.mizuho-rt.co.jp/business/consulting/articles/2023-k0040/index.html
p4. [※3] https://www.watch.impress.co.jp/docs/news/1565857.html
p25. [CroCo] https://europe.naverlabs.com/research/publications/croco-self-supervised-pretraining-for-3d-vision-tasks-by-cross-view-completion/
p45. [Wang+ 2019] https://arxiv.org/abs/1903.07593

Spatial AI Network

December 21, 2024
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. 2 - 以下の3本の論⽂の紹介資料です - DUSt3R [Wang+ 2024] - MASt3R [Leroy+

    2024] - MASt3R-SfM [Duisterhof+ 2024] - 特に断りのない場合は,図は上記論⽂からの引⽤となります - Speaker Deck へのアップロードにあたって - リンク類はすべて説明欄に記載しています はじめに
  2. 3 ⾃⼰紹介 ― 加藤⼤晴(かとうひろはる) - Preferred Networks, Inc. リサーチャー /

    エンジニアリングマネージャー - 博⼠(情報理⼯学) 『2D画像からの3Dメッシュ再構成の学習』 - 過去の講演資料など - 微分可能レンダリング (CVIM研究会 チュートリアル 2022) - ニューラル3D表現の最新動向 (SSII 2022) - 三次元構造を考慮した画像⽣成 (情報処理学会 連続セミナー2023) - 三次元再構成 (東京⼤学⼤学院『知能情報論』 2024) [Web] [Google Scholar] [Twitter] [E-Mail]
  3. 6 ⾃然⾔語処理: GPT, LLaMA, PLaMO (宣伝) 画像-⾔語理解: CLIP 画像特徴抽出: ViT,

    DINO 画像⽣成: DALL-E, Stable Diffusion ⾳声認識: Whisper 蛋⽩質構造予測: AlphaFold 分⼦動⼒学: Matlantis/PFP (宣伝) 画像分類,物体検出,セグメンテーション,深度推定,… ◦◦基盤モデル 3Dビジョンの基盤モデルは?
  4. 10 DUSt3R のアーキテクチャ ごく⼀般的な transformer self/cross attention 予測ヘッドだけ 2枚で別々 各ピクセルが

    3D空間のどこにあるか 1枚⽬の視点を 中⼼とする3D空間 ⼊⼒: 2枚の画像 出⼒: 点マップと⾃信度 つまり pixel-aligned な点群 2枚の画像で 同じ重み
  5. 12 DUSt3R の学習 深度付き多視点画像データセット8個, 約850万画像ペアを使って学習 各ピクセルについて,予測した3D座標と正解と の距離を最⼩化 - スケールの曖昧性については,予測‧正解 ともに画像の平均深度値を使ってスケール

    を合わせてから損失値を計算する - 実際には,予測の⾃信度も含めたもう少し 複雑な式を使う - 損失関数はこの1項のみ わりと素直 室内,屋外,運転シーン 物体,CGをカバー
  6. 19 - 2枚の画像の相対カメラ姿勢推定 (Visual Localization) (各クエリ画像について,データベース内の最類似画像との相対カメラ姿勢を計算) - SOTA に匹敵というほどでもないが,Visual Localization

    タスクに特化した訓練をしていな いことを踏まえると悪くない成績とのこと カメラ姿勢推定 ベンチマーク Feature Matching End-to-End
  7. 20 - 10枚の画像の相対カメラ姿勢推定 (枚数が少なく,おそらく学習ベースの直感⼒に優れる⼿法が有利なタスク) - COLMAP や PixSfM などの強⼒な SfM

    ⼿法や,学習ベースで SOTA の⼿法たちを上回る カメラ姿勢推定 ベンチマーク 対応点検出して PnP-RANSAC 3D空間で Global Alignment SuperPoint & SuperGlue
  8. 25 - Transformer を CroCo モデルで初期化しないと性能悪化 - 低解像度予測モデル (224) より⾼解像度予測

    (512) の⽅が性能がよい (Ablation study はこれ以外にないが,学習が⼤変そうなので仕⽅ないのかもしれない…) (同研究グループによる CroCo もおもしろ論⽂です。おすすめ) DUSt3R を使う: Ablation Study 深度推定
  9. 26 - 画像2枚 → 点群,を解く基盤モデルを提案 - 通常の3D再構成とは逆に,先に点群推定をしてから カメラ推定,対応点検出,深度推定 etc. を解く

    - 室内,屋外,運転シーン,物体,CGをカバーする850万ペアで学習 - 画像 {1枚/2枚/複数枚} からの {カメラ姿勢推定/深度推定/点群推定} で, 各タスクに特化した訓練⼀切せず,まあまあの性能を得た - 特に直感⼒が優れ,真⾯⽬に局所特徴を使って対応点検出すると解けな いようなケースに強いことが特徴 - ⼀⽅で,精緻な推定が問われるケース(e.g. MVS)ではさほど強くない DUSt3R まとめ
  10. 28 MASt3R の概要 - DUSt3R の後⽇談のような論⽂ - DUSt3R は,ピクセル間のマッチングは案外不正確 →

    マッチングを陽に学習して性能改善 - ⾼速で頑健な特徴マッチング⼿法を提案 (基盤モデルとあまり関係しないので省略)
  11. 30 MASt3R の学習 - DUSt3R を元に fine-tuning - 対応点情報付きのデータセットを使⽤ -

    DUSt3R に⽐べて使⽤データセットが増えている - 「社内データ」という語も - 対応点検出の損失関数 + DUSt3R の損失関数 - DUSt3R と違い,データセットが実スケール (メートル) のとき, 点群のスケールを正規化せず,実スケールで出⼒するように学習
  12. 37 MASt3R-SfM の概要 - MASt3R の後処理の global alignment を精緻にするだけで 既存⼿法を上回る

    Structure-from-Motion 性能を実現 - MASt3R の再学習等は⼀切不要 - 特に観測枚数が少ないときに頑健(省略) - MASt3R の特徴量を利⽤した⾼速な隣接グラフ構築(省略) - MASt3R の後⽇談のような論⽂
  13. 38 1. Coarse alignment (DUSt3R, MASt3R とほぼ同じ) 3次元空間内で位置のズレを合わせる MASt3R-SfM の

    global alignment 各画像のカメラ姿勢 P と スケール σ を最適化 全画像ペアの全対応点で マッチング⾃信度 3次元空間内での 位置のズレ ロバスト損失関数 (λ = 0.5) RANSAC は不要
  14. 39 2. Fine alignment 2次元空間内(スクリーン上)で位置のズレを合わせる MASt3R-SfM の global alignment 深度マップ

    Z と 内部パラメータ K も最適化 全画像ペアの全対応点で スクリーン空間内での 位置のズレ やはり RANSAC は不要
  15. 40 MASt3R-SfM: Alignement ⽅法の違い Tanks & Temples データセットの200枚のサブセットで評価 Ground-truth は全画像(300枚?)を使って

    COLMAP で作成 MASt3R とほぼ同等 + 画像空間で最適化 + ジオメトリも最適化 後処理を精緻にするだけで⼤幅に性能改善 お馴染みの多視点カメラ姿勢推定
  16. 43 DUSt3R: 画像2枚→点群,の単純なモデルと単純な後処理で多くの3Dタスクを解ける MASt3R: さらに対応点検出タスクを解かせると性能が向上する MASt3R-SfM: 出⼒の後処理を精緻にやると⾼精度に SfM できる ⾔い換えると…

    DUSt3R: 単純な構造‧学習と単純な後処理による3D基盤モデル MASt3R: モデルと学習の単純さに拘り過ぎず,タスクに応じて追加学習した⽅がよい MASt3R-SfM: 後処理の単純さに拘り過ぎず,タスクに応じて精緻に作り込んだ⽅がよい DUSt3R, MASt3R, MASt3R-SfM 当初はシンプルさ推しだったが,徐々に逆⾏している…?
  17. 44 事前知識獲得の強化 - あらゆる3Dタスクでマルチタスク学習,複雑なアーキテクチャの巨⼤モデルに タスク特化能⼒の強化 - 特定のタスクで fine-tuning - 後処理もモデルに組み込んで⼀気通貫学習

    (e.g. 微分可能 RANSAC,バンドル調整) カバー範囲の拡⼤ - デジタルヒューマン,⾃由視点画像,3Dモデル⽣成,SLAM,セグメンテーション,… そのための技術的課題は? - 学習データの不⾜,膨⼤な計算資源… 3D基盤モデル 今後の展開(妄想)
  18. 47 - DUSt3R の学習時間は? 論⽂には記載がないが,Github Issue によればA100を8枚使って1週間とのこと。 計算機費⽤はAWSを使うとざっくり80万円程度なので,基盤モデルとしては安め - MASt3R

    の学習時間は? 論⽂には記載がないが,Github Issue によればA100を8枚使って11⽇とのこと - ピンホールカメラでないカメラモデルは? 多少のレンズの歪み程度なら最適化で求められるのでは。⿂眼レンズなどは学習データに ないため難しそう - カメラパラメータが既知のときにそれを活⽤する⽅法は? なさそう - カメラモデルを仮定したモデルじゃダメなの? そういう制限をかけるのは良くないと書かれているが,実験的根拠は記載がない 想定質問