Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Zozo Research 技術共有会】三次元領域の現在と展望
Search
小島瑞貴
June 22, 2026
Research
230
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
【Zozo Research 技術共有会】三次元領域の現在と展望
小島瑞貴
June 22, 2026
More Decks by 小島瑞貴
See All by 小島瑞貴
学術バーQってどんなところ??
mickey_0226
0
71
さわって動かす人工知能
mickey_0226
0
47
動画生成と三次元生成を融合して最強の生成モデルを作ろう
mickey_0226
0
43
CVPR2026_VGGTとその仲間たち
mickey_0226
0
810
Transformerの推論を線形時間にして皆を驚かせましょう
mickey_0226
0
42
Other Decks in Research
See All in Research
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
960
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
280
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
180
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
200
Apache Gravitinoで実現する Icebergカタログ統合とアクセスの一元化
matsumooon
0
280
Data Visualization Tools in the Age of AI
flekschas
0
160
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
180
「AIとWhyを深堀る」をAIと深堀る
iflection
0
490
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
200
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
190
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
510
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
860
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
1
3.6M
Facilitating Awesome Meetings
lara
57
7k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
30 Presentation Tips
portentint
PRO
1
320
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
How GitHub (no longer) Works
holman
316
150k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
A Soul's Torment
seathinner
6
2.9k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Transcript
三次元領域の現在と展望 Zozo Research 技術登壇会: 東京科学大学 小島 瑞貴
2 自己紹介 所属: 東京科学大 修士2年 (川上研究室) 専門: 情報学(放射輝度場・三次元生成モデル) 研究内容: ➀撮影画像
②三次元復元 (任意視点画像生成) Cat3Dより引用
3 三次元領域の歴史
4 三次元復元とは シーンを撮影した複数枚画像 から 三次元構造を復元 三次元構造の復元 → 任意視点画像生成 例: 目を動かすと近いものは大きく、遠いものは小さく動く
→ 複数視点の情報で、奥行きのような三次元構造がわかる
5 三次元復元の発展の歴史(ざっくり) NeRF 3DGS VGGT 古くからの 三次元表現 ボクセル 点群 NeRF(2020)
古くからの三次元表現は、滑らかな新規視点画像生成は不可能 → NeRFでは、複数枚画像から現実のような画像が生成可能に! 三次元空間の 離散表現 三次元空間上の連続表現 (ニューラルネット)
6 NeRF 3DGS VGGT 古くからの 三次元表現 NeRFはレンダリング(三次元→画像)が遅い 古くからの三次元表現とNeRFの折衷案で 三次元空間をアプリで動かすことが可能に! ∵光線ごとにMLPを使う必要があるから
3DGS(2023): 色のついたガウシアンの重ね合わせ ・レンダリングはガウシアンを投影→高速 ・ガウシアンによる滑らかさ→新規視点画像生成 三次元復元の発展の歴史(ざっくり)
7 NeRF 3DGS VGGT 古くからの 三次元表現 3DGS全盛時の課題(2023): ➀レンダリングは高速だが、各シーンごとの最適化 ②撮影カメラ位置・姿勢の情報は既知という仮定 VGGT(CVPR2025)
複数枚画像 → 三次元復元&カメラ情報推定 任意の複数枚画像からfeedforward一発で復元 ⇒ 基盤三次元モデルの誕生 三次元復元の発展の歴史(ざっくり)
8 本講演の内容 基盤モデルたるVGGTのCVPR2026での進展と将来 Best Paper Finalistsですら2件 この進展は三次元領域限定? 明らかに、他の領域に 波及可能な部分がある!
9 三次元基盤モデルの誕生
10 VGGT (CVPR2025)とは? ・問題設定: 3次元シーンでの汎用的なモデルを作りたい ・当時の課題: ➀ 各3Dタスクが独立している(デプス推定・カメラポーズ推定など) ② 各シーンごとの最適化
(あらゆるシーンで汎用的に使えない) ・CVPR2025でBest Paper → 三次元領域でのパラダイムシフト
11 入力:複数枚画像, 出力:三次元復元 (シーンごとの最適化が不要) 三次元領域の基盤モデル! VGGT (CVPR2025)とは?
12 VGGTで何ができるようになったのか 複数画像(入力)からの統一した三次元情報(出力)の推定 ・三次元情報 … 点群・画素対応関係・デプス・カメラ姿勢 複数画像 点群 対応関係 デプス
カメラ姿勢 入力: 出力:
13 VGGTのモデル構造 入力:複数枚画像, 出力: カメラ姿勢・デプス・点群 ぱっと見ても理解できないと思うので、一つ一つ解説していきます!
14 入力:複数枚画像のみ(カメラ姿勢は未知) VGGTのモデル構造
15 出力:三次元情報(カメラ姿勢・デプスなど) VGGTのモデル構造
16 DINOでパッチごとの特徴量抽出 VGGTのモデル構造
17 学習可能なカメラトークンを付加 VGGTのモデル構造
18 すべてのトークン・フレームごと に情報を混ぜ混ぜ(アテンション) VGGTのモデル構造
19 更新されたカメラトークンから 全画像のカメラ姿勢を予測 VGGTのモデル構造
20 残りのトークンから デプス・点群を予測 ※デプス: 各画像ごとの情報, 点群: 統一された座標系の情報 VGGTのモデル構造
21 ・損失関数: ・入出力の定式化: 複数枚画像 カメラ姿勢 デプス 点群 対応関係用 特徴量(略) 「出力に関するGTとの誤差の最小化」の認識でOK
VGGTの定式化・損失関数
22
23 三次元基盤モデルの解釈と展望
24 VGGTとは強い三次元モデル? 特徴量更新として見える
25 DINO特徴量の三次元情報による更新では? DINO 特徴量 VGGT 特徴量 更新! VGGTとは強い三次元モデル?
26 エンコーダ・デコーダの観点から ・二次元画像の例 画像 画像 潜在空間は画像の圧縮情報 → 計算効率・汎化性能 → 下流タスクへ
27 エンコーダ・デコーダの観点から ・VGGTでは? VGGT 特徴量 三次元 画像 潜在空間 三次元
28 エンコーダ・デコーダの観点から VGGTは複数枚画像から三次元を復元 VGGT 特徴量 三次元 画像 潜在空間 三次元
29 エンコーダ・デコーダの観点から 三次元から二次元は、カメラが担当 VGGT 特徴量 三次元 画像 潜在空間 三次元
30 エンコーダ・デコーダの観点から 三次元から二次元は、カメラが担当 VGGT 特徴量 三次元 画像 潜在空間 三次元
31 VGGTは三次元のエンコーダ/デコーダ VGGT 特徴量 三次元 潜在空間 三次元
32 LagerNVS (CVPR2026) ・問題設定: VGGTの能力を活用して新規視点画像生成したい! ・課題: VGGTは重く、新規視点画像生成 の機能を付けると実用に向かない
33 リアルタイムの新規視点画像生成!
34 既存の新規視点画像生成 複数枚撮影画像 新規視点画像 三次元表現 (NeRF, 3DGS)
35 複数枚撮影画像 新規視点画像 三次元表現 (NeRF, 3DGS) 三次元表現は重すぎる! 既存の新規視点画像生成
36 複数枚撮影画像 新規視点画像 VGGT 特徴量 LagerNVSの面白さ: 三次元表現を介さない 新規視点画像生成は、レンダラー→Transformer
37 LagerNVSのモデル構造
38 LagerNVSのモデル構造 VGGTで特徴量抽出
39 LagerNVSのモデル構造 VGGT 特徴量
40 LagerNVSのモデル構造 VGGT 特徴量 一度取得したら固定!
41 LagerNVSのモデル構造 VGGT 特徴量 新規視点生成のため デコーダー(軽量)を学習 デコーダー軽量なので、オンラインレンダリングが可能に!
42
43 VGGT特徴量をセグメンテーションに(VGGT-S) 一人称・三人称視点でのセグメンテーション
44 画像特徴量が三次元を理解 DINO 特徴量 VGGT 特徴量 更新! DINO特徴量からVGGT特徴量への転換 → 暗黙的な三次元理解促進
45 まとめ ★三次元領域の歴史 ・NeRF: MLPによる各シーンごとの表現 ・3DGS: 複数ガウシアンによるシーンごとの表現 ★三次元基盤モデルの誕生 ・VGGT: モデル構造・損失関数
★三次元基盤モデルの解釈と展望 ・VGGTはエンコーダとして解釈可能 ・LagerNVS:新規視点画像生成, VGGT-S: セグメンテーション