Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GGT: Visual Geometry Grounded Transformer

GGT: Visual Geometry Grounded Transformer

CVPR 2025で発表が予定されている"VGGT: Visual Geometry Grounded Transformer"の論文の内容をまとめたスライドです。
- 任意枚数の多視点RGB画像を入力とするFeed-ForwardなTransformerを提案
- カメラの内部・外部parameter、point map、depth map、point trackの推定をマルチタスク学習
- GTカメラを使用した他手法や同条件のDUSt3R、MASt3Rより高精度で高速

Avatar for Spatial AI Network

Spatial AI Network

May 15, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. VGGT:Visual Geometry Grounded Transformer 発表者:藤冨 卓 Jianyuan Wang1,2 , Minghao

    Chen1,2 , Christian Rupprecht1 , Nikita Karaev1,2 , David Novotny2 1Visual Geometry Group, University of Oxford 2Meta AI GitHub - facebookresearch/vggt: [CVPR 2025 Oral] VGGT: Visual Geometry Grounded Transformer Spatial AI Network 勉強会(2025/4/8) 論文紹介
  2. 従来法の問題点 3 ◼ DUSt3R、MASt3R o ネットワークは一度に2枚の画像しか処理できない o より多くの枚数の画像再構成を行うには、後処理でのペアワイズ再構成の融合が必要 ◼ 提案法

    o 1回のフォワードパスで任意枚数に対する3D属性を推定 ▪ まとめて処理するため高コストな後処理を不要化 DUSt3R [2312.14132] DUSt3R: Geometric 3D Vision Made Easy MASt3R [2406.09756] Grounding Image Matching in 3D with MASt3R
  3. 提案法:アーキテクチャ 4 1. 画像のパッチ化・トークン化 o DINOv2の事前学習済みモデル [2203.03605] DINO: DETR with

    Improved DeNoising Anchor Boxes for End-to-End Object Detection 2. AA(Alternating-Attention)Transformer o Global Attention & Frame Attention 3. 予測ヘッド o カメラ:Self-Attention層+線形層 o Depth map, point map, track:DPT(Dense Prediction Transformer) [2103.13413] Vision Transformers for Dense Prediction
  4. 予測ヘッド 7 ◼ カメラ予測 o カメラトークンから4つの追加Self-Attention層とそれに続く線形層を用いて予測 ◼ 密な予測 o DPT層を用いて画像トークンを密な特徴マップF_i(C’’×H×W)と高密度特徴T_i(C×H×W)に変換

    o depth mapとpoint map:F_iから3×3畳み込み層でマッピング、 それぞれの不確実性マップ(aleatoric uncertainty)も出力する ▪ [1509.05909] Modelling Uncertainty in Deep Learning for Camera Relocalization o tracking:T_iをトラッキングモジュール(CoTracker2 architecture)へ入力し予測 ▪ [2307.07635] CoTracker: It is Better to Track Together
  5. トレーニング損失 8 ◼ L_camera o Huber Lossを使用 ◼ L_depth o

    はchannel-broadcast element-wise product ◼ L_pmap o L_depthと同じ形 ◼ L_track o y_{j, i}は画像I_q内のクエリ点y_{j}に対応する画像I_i内の点 不確実性マップ
  6. データセット 9 ◼ 屋内・屋外、合成・実世界の多様なデータセットで学習 o Co3Dv2、BlendedMVS、DL3DV、MegaDepth、Kubric、WildRGB、 ScanNet、HyperSim、Mapillary、Habitat、Replica、MVS-Synth、PointOdyssey、 Virtual KITTI、Aria Synthetic

    Environments、Aria Digital Twin、 アーティストが作成したObjaverseに似た3D assetsデータセット o 3Dアノテーションは、センサーキャプチャ、合成エンジン、SfMなど複数のソースから取得 o データセットの組み合わせは、サイズと多様性においてMASt3Rとほぼ同等
  7. Point Map推定 12 ◼ ETH3Dデータセットで評価 ◼ DUSt3R、MASt3R​を凌駕 ◼ 予測したpoint mapをそのまま

    使うより、 予測したdepth mapとカメラ からpoint mapを推定したほうが 精度が良い
  8. Two-view Image Matching 13 ◼ ScanNet-1500で評価 ◼ ALIKEDを用いてクエリとなるキーポイントを検出 o [2304.03608]

    ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation ◼ Romaのハイパーパラメータ(マッチ数、RANSAC閾値)を採用 ◼ 全てのベースラインの中で最も高い精度を達成
  9. Ablation Study 14 ◼ Alternating-Attentionの有効性評価 o ETH3Dのpoint map推定を評価 o 同じパラメータ数のGlobal

    AttentionのみやCross-Attentionに比べて性能が良い ◼ point map推定におけるマルチタスク学習の有効性評価 o ETH3Dのpoint map推定を評価 o L_pmapに加え、L_camera、L_depth, L_trackの全てを適用するのが最良
  10. Limitations 17 ◼ いくつかの限界が存在 o 現在のモデルは魚眼画像やパノラマ画像をサポートしていない o 極端な回転を伴う条件下では再構成性能が低下 o 大幅な非剛体運動シナリオでは失敗

    ◼ ターゲットとするデータセットでモデルをFinetuningすれば、 提案法は軽微なアーキテクチャ変更でこれらの限界に柔軟に適応できる
  11. 実行時間とメモリ 18 ◼ 特徴バックボーンの実行時間とメモリ o NVIDIA H100 GPU でflash attention

    v3を使用して測定 o 画像サイズは336 × 518 ◼ その他 o カメラヘッドは軽量で、実行時間の約5%、GPUメモリの約2%を占める o DPTヘッドは1枚あたり平均0.03秒・0.2GB GPUメモリを使用