Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動画生成と三次元生成を融合して最強の生成モデルを作ろう
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
小島瑞貴
June 01, 2026
Science
45
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
動画生成と三次元生成を融合して最強の生成モデルを作ろう
小島瑞貴
June 01, 2026
More Decks by 小島瑞貴
See All by 小島瑞貴
【Zozo Research 技術共有会】三次元領域の現在と展望
mickey_0226
3
390
学術バーQってどんなところ??
mickey_0226
0
110
さわって動かす人工知能
mickey_0226
0
49
CVPR2026_VGGTとその仲間たち
mickey_0226
0
850
Transformerの推論を線形時間にして皆を驚かせましょう
mickey_0226
0
42
Other Decks in Science
See All in Science
共生概念の整理と AIアライメントの構想
hiroakihamada
0
220
(2025) Balade en cyclotomie
mansuy
0
630
Algorithmic Aspects of Quiver Representations
tasusu
0
380
How we plan to publish 1,000 bio-logging datasets to GBIF and OBIS
peterdesmet
0
110
データベース08: 実体関連モデルとは?
trycycle
PRO
0
1.2k
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1.2k
Inside the Mind of an LLM
baggiponte
0
180
やるべきときにMLをやる AIエージェント開発
fufufukakaka
2
1.5k
白金鉱業Vol.21【初学者向け発表枠】身近な例から学ぶ数理最適化の基礎 / Learning the Basics of Mathematical Optimization Through Everyday Examples
brainpadpr
1
750
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
140
(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise
shumpei777
0
150
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
1.5k
Featured
See All Featured
The Curse of the Amulet
leimatthew05
1
13k
Abbi's Birthday
coloredviolet
2
8.1k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Believing is Seeing
oripsolob
1
150
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.8k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Designing for Performance
lara
611
70k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Statistics for Hackers
jakevdp
799
230k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Transcript
Vist3A 東京科学大学 小島 瑞貴 Text-to-3D by stitching a multi-view reconstruction
network to a video generator
2 問題設定: 文章からの3次元生成 難しさ: 3次元データとテキストのペアの正解データを大量に作るのは困難…
3 分野のトレンド❶: 文章からの映像生成 説明文章に沿った映像を生成できる 3次元的に一貫した映像の生成が難しい 例: オールが途中で消えたりする
4 分野のトレンド❷: Feedforwardな3次元再構成 (VGGTなど) 複数入力画像 3次元シーン 一瞬 挑戦: テキストからの3次元生成 でも、そもそもデータセットを作るのも大変…
5 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 2つの手法を合わせて、最強のモデルを作ろう!!
でも、構造的に全然違くない…??? → 「創造的」な「3次元生成モデル」が構築
6 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 3次元 もし「共通する何か」があれば..?? 何か
何か 画像たち or 動画
7 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 もし「共通する何か」があれば..??
繋がる!! 何か 何か テキスト 何か 3次元 映像生成モデル×VGGT or 動画
8 アプローチ (詳細) 要約: 動画の潜在空間を介し、①text2videoと②VGGTを結びつける 何か
9 登場人物紹介 ①エンコーダ&デコーダ ②VGGT ③text-to-videoの生成モデル 潜在表現 映像 テキスト 潜在表現 映像
3次元
10 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 詳細は後のスライドで…
11 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 詳細は後のスライドで…
12 ① VGGTの隠れ層で、潜在空間と互換性がある層を探す Step1: エンコーダに複数入力を入れ特徴量抽出 映像たち(N個) 特徴量たち Step2: VGGTに複数入力を入れ各層での特徴量抽出 Step3:
線形変換分は許容し互換性がある層を見つける ※解釈: どの層が一番近い?
13 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 詳細は後のスライドで…
14 ② 潜在表現→3次元部分をファインチューニング 上側: 下側: 継ぎはぎ部分がつながるように少しファインチューニングをする 解釈: 映像でなく潜在変数だけから 3次元モデルを作れるように ※理由:
拡散モデルをつなげるから
15 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 詳細は後のスライドで…
16 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 現状: テキスト 潜在表現 3次元 学習対象: 潜在拡散モデル ※テキストから潜在表現を生成
潜在表現 テキスト 想定疑問:テキストから潜在変数への変換は事前学習済みでは? A.テキスト→3次元部分の整合性に関してftする
17 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 他の登場人物: ①潜在表現→3次元表現 潜在表現 3次元 ※ひとつ前のステップで学習済み ②潜在表現→動画 潜在表現
デコーダ 動画
18 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 全体像: 潜在表現 3次元 動画
19 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 全体像: 損失関数 ❶ 動画品質 ・CLIPでのキャプションと の整合性 ・HSPv2での人間の好みス
コア ❷ レンダリング画像品質 ・レンダリング画像に❶と 同じ評価 ❸ 動画と3Dの整合性 ・同じ視点でのレンダリン グ 画 像 の 類 似 度 を L2, LPIPSで評価 ❶ ❷ ❸ 潜在 表現
20 先行研究との定性比較① Director3D Splatflow Prometheus3D VideoRFSplat Splatflow
21 先行研究との定性比較② Director3D Splatflow Prometheus3D VideoRFSplat Vist3A