【Zozo Research 技術共有会】三次元領域の現在と展望

三次元領域の現在と展望 Zozo Research 技術登壇会: 東京科学大学小島瑞貴

2 自己紹介所属: 東京科学大修士2年 (川上研究室) 専門: 情報学（放射輝度場・三次元生成モデル）研究内容: ➀撮影画像
②三次元復元（任意視点画像生成） Cat3Dより引用

3 三次元領域の歴史

4 三次元復元とはシーンを撮影した複数枚画像から三次元構造を復元三次元構造の復元 → 任意視点画像生成例: 目を動かすと近いものは大きく、遠いものは小さく動く
→ 複数視点の情報で、奥行きのような三次元構造がわかる

5 三次元復元の発展の歴史（ざっくり） NeRF 3DGS VGGT 古くからの三次元表現ボクセル点群 NeRF(2020)
古くからの三次元表現は、滑らかな新規視点画像生成は不可能 → NeRFでは、複数枚画像から現実のような画像が生成可能に！三次元空間の離散表現三次元空間上の連続表現（ニューラルネット）

6 NeRF 3DGS VGGT 古くからの三次元表現 NeRFはレンダリング(三次元→画像)が遅い古くからの三次元表現とNeRFの折衷案で三次元空間をアプリで動かすことが可能に！ ∵光線ごとにMLPを使う必要があるから
3DGS(2023): 色のついたガウシアンの重ね合わせ・レンダリングはガウシアンを投影→高速・ガウシアンによる滑らかさ→新規視点画像生成三次元復元の発展の歴史（ざっくり）

7 NeRF 3DGS VGGT 古くからの三次元表現 3DGS全盛時の課題(2023): ➀レンダリングは高速だが、各シーンごとの最適化 ②撮影カメラ位置・姿勢の情報は既知という仮定 VGGT(CVPR2025)
複数枚画像 → 三次元復元＆カメラ情報推定任意の複数枚画像からfeedforward一発で復元 ⇒ 基盤三次元モデルの誕生三次元復元の発展の歴史（ざっくり）

8 本講演の内容基盤モデルたるVGGTのCVPR2026での進展と将来 Best Paper Finalistsですら2件この進展は三次元領域限定？明らかに、他の領域に波及可能な部分がある！

9 三次元基盤モデルの誕生

10 VGGT (CVPR2025)とは？・問題設定: 3次元シーンでの汎用的なモデルを作りたい・当時の課題: ➀ 各3Dタスクが独立している(デプス推定・カメラポーズ推定など) ② 各シーンごとの最適化
(あらゆるシーンで汎用的に使えない) ・CVPR2025でBest Paper → 三次元領域でのパラダイムシフト

11 入力:複数枚画像, 出力:三次元復元 (シーンごとの最適化が不要) 三次元領域の基盤モデル！ VGGT (CVPR2025)とは？

12 VGGTで何ができるようになったのか複数画像（入力）からの統一した三次元情報（出力）の推定・三次元情報 … 点群・画素対応関係・デプス・カメラ姿勢複数画像点群対応関係デプス
カメラ姿勢入力: 出力:

13 VGGTのモデル構造入力:複数枚画像, 出力: カメラ姿勢・デプス・点群ぱっと見ても理解できないと思うので、一つ一つ解説していきます！

14 入力:複数枚画像のみ（カメラ姿勢は未知） VGGTのモデル構造

15 出力:三次元情報（カメラ姿勢・デプスなど） VGGTのモデル構造

16 DINOでパッチごとの特徴量抽出 VGGTのモデル構造

17 学習可能なカメラトークンを付加 VGGTのモデル構造

18 すべてのトークン・フレームごとに情報を混ぜ混ぜ（アテンション） VGGTのモデル構造

19 更新されたカメラトークンから全画像のカメラ姿勢を予測 VGGTのモデル構造

20 残りのトークンからデプス・点群を予測 ※デプス: 各画像ごとの情報, 点群: 統一された座標系の情報 VGGTのモデル構造

21 ・損失関数: ・入出力の定式化: 複数枚画像カメラ姿勢デプス点群対応関係用特徴量(略) 「出力に関するGTとの誤差の最小化」の認識でOK
VGGTの定式化・損失関数

23 三次元基盤モデルの解釈と展望

24 VGGTとは強い三次元モデル? 特徴量更新として見える

25 DINO特徴量の三次元情報による更新では？ DINO 特徴量 VGGT 特徴量更新！ VGGTとは強い三次元モデル?

26 エンコーダ・デコーダの観点から・二次元画像の例画像画像潜在空間は画像の圧縮情報 → 計算効率・汎化性能 → 下流タスクへ

27 エンコーダ・デコーダの観点から・VGGTでは？ VGGT 特徴量三次元画像潜在空間三次元

28 エンコーダ・デコーダの観点から VGGTは複数枚画像から三次元を復元 VGGT 特徴量三次元画像潜在空間三次元

29 エンコーダ・デコーダの観点から三次元から二次元は、カメラが担当 VGGT 特徴量三次元画像潜在空間三次元

30 エンコーダ・デコーダの観点から三次元から二次元は、カメラが担当 VGGT 特徴量三次元画像潜在空間三次元

31 VGGTは三次元のエンコーダ/デコーダ VGGT 特徴量三次元潜在空間三次元

32 LagerNVS (CVPR2026) ・問題設定: VGGTの能力を活用して新規視点画像生成したい！・課題: VGGTは重く、新規視点画像生成の機能を付けると実用に向かない

33 リアルタイムの新規視点画像生成！

34 既存の新規視点画像生成複数枚撮影画像新規視点画像三次元表現 (NeRF, 3DGS)

35 複数枚撮影画像新規視点画像三次元表現 (NeRF, 3DGS) 三次元表現は重すぎる！既存の新規視点画像生成

36 複数枚撮影画像新規視点画像 VGGT 特徴量 LagerNVSの面白さ: 三次元表現を介さない新規視点画像生成は、レンダラー→Transformer

37 LagerNVSのモデル構造

38 LagerNVSのモデル構造 VGGTで特徴量抽出

39 LagerNVSのモデル構造 VGGT 特徴量

40 LagerNVSのモデル構造 VGGT 特徴量一度取得したら固定！

41 LagerNVSのモデル構造 VGGT 特徴量新規視点生成のためデコーダー（軽量）を学習デコーダー軽量なので、オンラインレンダリングが可能に！

43 VGGT特徴量をセグメンテーションに(VGGT-S) 一人称・三人称視点でのセグメンテーション

44 画像特徴量が三次元を理解 DINO 特徴量 VGGT 特徴量更新！ DINO特徴量からVGGT特徴量への転換 → 暗黙的な三次元理解促進

45 まとめ ★三次元領域の歴史・NeRF: MLPによる各シーンごとの表現・3DGS: 複数ガウシアンによるシーンごとの表現 ★三次元基盤モデルの誕生・VGGT: モデル構造・損失関数
★三次元基盤モデルの解釈と展望・VGGTはエンコーダとして解釈可能・LagerNVS:新規視点画像生成, VGGT-S: セグメンテーション

【Zozo Research 技術共有会】三次元領域の現在と展望

【Zozo Research 技術共有会】三次元領域の現在と展望

More Decks by 小島瑞貴

Other Decks in Research

Featured

Transcript