VGGT: Visual Geometry Grounded Transformer

VGGT:Visual Geometry Grounded Transformer 発表者：藤冨卓 Jianyuan Wang1,2 , Minghao
Chen1,2 , Christian Rupprecht1 , Nikita Karaev1,2 , David Novotny2 1Visual Geometry Group, University of Oxford 2Meta AI GitHub - facebookresearch/vggt: [CVPR 2025 Oral] VGGT: Visual Geometry Grounded Transformer Spatial AI Network 勉強会（2025/4/8）論文紹介

どんな論文？ 2 ◼ 任意枚数の多視点RGB画像を入力とするFeed-ForwardなTransformerを提案 ◼ カメラの内部・外部parameter、point map、depth map、point trackの推定をマルチタスク学習
◼ GTカメラを使用した他手法や同条件のDUSt3R、MASt3Rより高精度で高速

従来法の問題点 3 ◼ DUSt3R、MASt3R o ネットワークは一度に2枚の画像しか処理できない o より多くの枚数の画像再構成を行うには、後処理でのペアワイズ再構成の融合が必要 ◼ 提案法
o 1回のフォワードパスで任意枚数に対する3D属性を推定 ▪ まとめて処理するため高コストな後処理を不要化 DUSt3R [2312.14132] DUSt3R: Geometric 3D Vision Made Easy MASt3R [2406.09756] Grounding Image Matching in 3D with MASt3R

提案法：アーキテクチャ 4 1. 画像のパッチ化・トークン化 o DINOv2の事前学習済みモデル [2203.03605] DINO: DETR with
Improved DeNoising Anchor Boxes for End-to-End Object Detection 2. AA（Alternating-Attention）Transformer o Global Attention & Frame Attention 3. 予測ヘッド o カメラ：Self-Attention層+線形層 o Depth map, point map, track：DPT（Dense Prediction Transformer） [2103.13413] Vision Transformers for Dense Prediction

画像のパッチ化・トークン化 5 ◼ 各画像を、事前学習済みDINOv2を通して画像トークンの集合にパッチ化 ◼ カメラトークンとレジスタトークン（上図未記載）を画像トークンに結合 o カメラトークンとレジスタトークンはlearnable parameterであり、それぞれ最初のフレーム専用とそれ以外のフレーム専用に2つ定義して使い分ける
▪ モデルが最初のフレームとそれ以外を識別し、最初のカメラ座標フレームで3D予測を表現可能にするため

◼ GlobalなSelf-AttentionとFrame単位のSelf-Attentionを交互に適用 Global Attentionは普通のSelf-Attentionと同じで、Frame Attentionの場合はLがL/(画像枚数)に変わる o 入力 o L個のトークンごとにQ, K,
Vを計算 o アテンションスコアの計算 ▪ 入力と同じに戻る AA（Alternating-Attention）Transformer 6

予測ヘッド 7 ◼ カメラ予測 o カメラトークンから4つの追加Self-Attention層とそれに続く線形層を用いて予測 ◼ 密な予測 o DPT層を用いて画像トークンを密な特徴マップF_i（C’’×H×W）と高密度特徴T_i（C×H×W）に変換
o depth mapとpoint map：F_iから3×3畳み込み層でマッピング、それぞれの不確実性マップ（aleatoric uncertainty）も出力する ▪ [1509.05909] Modelling Uncertainty in Deep Learning for Camera Relocalization o tracking：T_iをトラッキングモジュール（CoTracker2 architecture）へ入力し予測 ▪ [2307.07635] CoTracker: It is Better to Track Together

トレーニング損失 8 ◼ L_camera o Huber Lossを使用 ◼ L_depth o
はchannel-broadcast element-wise product ◼ L_pmap o L_depthと同じ形 ◼ L_track o y_{j, i}は画像I_q内のクエリ点y_{j}に対応する画像I_i内の点不確実性マップ

データセット 9 ◼ 屋内・屋外、合成・実世界の多様なデータセットで学習 o Co3Dv2、BlendedMVS、DL3DV、MegaDepth、Kubric、WildRGB、 ScanNet、HyperSim、Mapillary、Habitat、Replica、MVS-Synth、PointOdyssey、 Virtual KITTI、Aria Synthetic
Environments、Aria Digital Twin、アーティストが作成したObjaverseに似た3D assetsデータセット o 3Dアノテーションは、センサーキャプチャ、合成エンジン、SfMなど複数のソースから取得 o データセットの組み合わせは、サイズと多様性においてMASt3Rとほぼ同等

カメラポーズ推定 10 ◼ RealEstate10K（学習に未使用）とCO3Dv2で評価 ◼ 画像ペアの相対回転精度と相対並進精度を組み合わせたAUC@30 ◼ Ours（Feed-Forward）は他の全ての従来法より高速・高精度 ◼ Bundle
adjustmentを適用すると、時間は増えるが精度が上がる

Multi-view Depth推定 11 ◼ DTUデータセットで評価 ◼ Overallで比較すると、カメラが既知の設定のMASt3R・GeoMVSNetには劣るがカメラが未知の設定のDUSt3Rを凌駕する性能

Point Map推定 12 ◼ ETH3Dデータセットで評価 ◼ DUSt3R、MASt3Rを凌駕 ◼ 予測したpoint mapをそのまま
使うより、予測したdepth mapとカメラからpoint mapを推定したほうが精度が良い

Two-view Image Matching 13 ◼ ScanNet-1500で評価 ◼ ALIKEDを用いてクエリとなるキーポイントを検出 o [2304.03608]
ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation ◼ Romaのハイパーパラメータ（マッチ数、RANSAC閾値）を採用 ◼ 全てのベースラインの中で最も高い精度を達成

Ablation Study 14 ◼ Alternating-Attentionの有効性評価 o ETH3Dのpoint map推定を評価 o 同じパラメータ数のGlobal
AttentionのみやCross-Attentionに比べて性能が良い ◼ point map推定におけるマルチタスク学習の有効性評価 o ETH3Dのpoint map推定を評価 o L_pmapに加え、L_camera、L_depth, L_trackの全てを適用するのが最良

下流タスクのためのFunetuning フィードフォワード新規視点合成 15 ◼ GSOデータセットで評価

下流タスクのためのFunetuning Dynamic Point Tracking 16 ◼ TAP-Vidベンチマークで評価

Limitations 17 ◼ いくつかの限界が存在 o 現在のモデルは魚眼画像やパノラマ画像をサポートしていない o 極端な回転を伴う条件下では再構成性能が低下 o 大幅な非剛体運動シナリオでは失敗
◼ ターゲットとするデータセットでモデルをFinetuningすれば、提案法は軽微なアーキテクチャ変更でこれらの限界に柔軟に適応できる

実行時間とメモリ 18 ◼ 特徴バックボーンの実行時間とメモリ o NVIDIA H100 GPU でflash attention
v3を使用して測定 o 画像サイズは336 × 518 ◼ その他 o カメラヘッドは軽量で、実行時間の約5%、GPUメモリの約2%を占める o DPTヘッドは1枚あたり平均0.03秒・0.2GB GPUメモリを使用

単眼再構成 19 ◼ 単眼再構成のために明示的に訓練されていないにもかかわらず良好な結果

予測の正規化 20 ◼ 提案法は3D点の平均ユークリッド距離を用いてground truthを正規化 ◼ DUSt3Rのようないくつかの手法はこのような正規化をネットワーク予測にも使用 ◼ ネットワーク予測への正規化適用は収束やモデル性能に有利にはならず、
むしろ訓練段階で不安定性をもたらす傾向がある

まとめ 21 ◼ 数百の入力視点に対して主要な3Dシーンプロパティを直接推定することができるフィードフォワードネットワークのVGGTを提案 ◼ 従来のタスク特化な最適化・後処理に依存することのないシンプルで効率的な設計 ◼
カメラパラメータ推定、Multi-view depth推定、密な点群推定、 3D tracking等の複数の3DタスクでSOTAを達成

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript