動画生成と三次元生成を融合して最強の生成モデルを作ろう

Vist3A 東京科学大学小島瑞貴 Text-to-3D by stitching a multi-view reconstruction
network to a video generator

2 問題設定: 文章からの3次元生成難しさ: 3次元データとテキストのペアの正解データを大量に作るのは困難…

3 分野のトレンド❶: 文章からの映像生成説明文章に沿った映像を生成できる 3次元的に一貫した映像の生成が難しい例: オールが途中で消えたりする

4 分野のトレンド❷: Feedforwardな3次元再構成 (VGGTなど) 複数入力画像 3次元シーン一瞬挑戦: テキストからの3次元生成でも、そもそもデータセットを作るのも大変…

5 アプローチ (概要) 映像生成モデル VGGT テキスト動画画像たち 3次元 2つの手法を合わせて、最強のモデルを作ろう！！
でも、構造的に全然違くない…??? → 「創造的」な「3次元生成モデル」が構築

6 アプローチ (概要) 映像生成モデル VGGT テキスト動画 3次元もし「共通する何か」があれば..?? 何か
何か画像たち or 動画

7 アプローチ (概要) 映像生成モデル VGGT テキスト動画画像たち 3次元もし「共通する何か」があれば..??
繋がる！！何か何かテキスト何か 3次元映像生成モデル×VGGT or 動画

8 アプローチ (詳細) 要約: 動画の潜在空間を介し、①text2videoと②VGGTを結びつける何か

9 登場人物紹介 ①エンコーダ＆デコーダ ②VGGT ③text-to-videoの生成モデル潜在表現映像テキスト潜在表現映像
3次元

10 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング詳細は後のスライドで…

12 ① VGGTの隠れ層で、潜在空間と互換性がある層を探す Step1: エンコーダに複数入力を入れ特徴量抽出映像たち(N個) 特徴量たち Step2: VGGTに複数入力を入れ各層での特徴量抽出 Step3:
線形変換分は許容し互換性がある層を見つける ※解釈: どの層が一番近い？

14 ② 潜在表現→3次元部分をファインチューニング上側: 下側: 継ぎはぎ部分がつながるように少しファインチューニングをする解釈: 映像でなく潜在変数だけから 3次元モデルを作れるように ※理由:
拡散モデルをつなげるから

16 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング現状: テキスト潜在表現 3次元学習対象: 潜在拡散モデル ※テキストから潜在表現を生成
潜在表現テキスト想定疑問:テキストから潜在変数への変換は事前学習済みでは？ A.テキスト→3次元部分の整合性に関してftする

17 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング他の登場人物: ①潜在表現→3次元表現潜在表現 3次元 ※ひとつ前のステップで学習済み ②潜在表現→動画潜在表現
デコーダ動画

18 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング全体像: 潜在表現 3次元動画

19 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング全体像: 損失関数 ❶ 動画品質・CLIPでのキャプションとの整合性・HSPv2での人間の好みス
コア ❷ レンダリング画像品質・レンダリング画像に❶と同じ評価 ❸ 動画と3Dの整合性・同じ視点でのレンダリング画像の類似度を L2, LPIPSで評価 ❶ ❷ ❸ 潜在表現

20 先行研究との定性比較① Director3D Splatflow Prometheus3D VideoRFSplat Splatflow

21 先行研究との定性比較② Director3D Splatflow Prometheus3D VideoRFSplat Vist3A

動画生成と三次元生成を融合して最強の生成モデルを作ろう

動画生成と三次元生成を融合して最強の生成モデルを作ろう

小島瑞貴

More Decks by 小島瑞貴

Other Decks in Science

Featured

Transcript

Vist3A 東京科学大学小島瑞貴 Text-to-3D by stitching a multi-view reconstruction

2 問題設定: 文章からの3次元生成難しさ: 3次元データとテキストのペアの正解データを大量に作るのは困難…

3 分野のトレンド❶: 文章からの映像生成説明文章に沿った映像を生成できる 3次元的に一貫した映像の生成が難しい例: オールが途中で消えたりする

4 分野のトレンド❷: Feedforwardな3次元再構成 (VGGTなど) 複数入力画像 3次元シーン一瞬挑戦: テキストからの3次元生成でも、そもそもデータセットを作るのも大変…

5 アプローチ (概要) 映像生成モデル VGGT テキスト動画画像たち 3次元 2つの手法を合わせて、最強のモデルを作ろう！！

6 アプローチ (概要) 映像生成モデル VGGT テキスト動画 3次元もし「共通する何か」があれば..?? 何か

7 アプローチ (概要) 映像生成モデル VGGT テキスト動画画像たち 3次元もし「共通する何か」があれば..??

8 アプローチ (詳細) 要約: 動画の潜在空間を介し、①text2videoと②VGGTを結びつける何か

9 登場人物紹介 ①エンコーダ＆デコーダ ②VGGT ③text-to-videoの生成モデル潜在表現映像テキスト潜在表現映像

10 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング詳細は後のスライドで…

11 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング詳細は後のスライドで…

12 ① VGGTの隠れ層で、潜在空間と互換性がある層を探す Step1: エンコーダに複数入力を入れ特徴量抽出映像たち(N個) 特徴量たち Step2: VGGTに複数入力を入れ各層での特徴量抽出 Step3:

13 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング詳細は後のスライドで…

14 ② 潜在表現→3次元部分をファインチューニング上側: 下側: 継ぎはぎ部分がつながるように少しファインチューニングをする解釈: 映像でなく潜在変数だけから 3次元モデルを作れるように ※理由:

15 学習の流れ ① VGGTの隠れ層で、潜在空間と互換性がある層を探す ② 潜在表現→3次元部分をファインチューニング ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング詳細は後のスライドで…

16 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング現状: テキスト潜在表現 3次元学習対象: 潜在拡散モデル ※テキストから潜在表現を生成

17 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング他の登場人物: ①潜在表現→3次元表現潜在表現 3次元 ※ひとつ前のステップで学習済み ②潜在表現→動画潜在表現

18 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング全体像: 潜在表現 3次元動画

19 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング全体像: 損失関数 ❶ 動画品質・CLIPでのキャプションとの整合性・HSPv2での人間の好みス

20 先行研究との定性比較① Director3D Splatflow Prometheus3D VideoRFSplat Splatflow

21 先行研究との定性比較② Director3D Splatflow Prometheus3D VideoRFSplat Vist3A