Upgrade to Pro — share decks privately, control downloads, hide ads and more …

動画生成と三次元生成を融合して最強の生成モデルを作ろう

 動画生成と三次元生成を融合して最強の生成モデルを作ろう

Avatar for 小島瑞貴

小島瑞貴

June 01, 2026

More Decks by 小島瑞貴

Other Decks in Science

Transcript

  1. 5 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 2つの手法を合わせて、最強のモデルを作ろう!!

    でも、構造的に全然違くない…??? → 「創造的」な「3次元生成モデル」が構築
  2. 7 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 もし「共通する何か」があれば..??

    繋がる!! 何か 何か テキスト 何か 3次元 映像生成モデル×VGGT or 動画
  3. 16 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 現状: テキスト 潜在表現 3次元 学習対象: 潜在拡散モデル ※テキストから潜在表現を生成

    潜在表現 テキスト 想定疑問:テキストから潜在変数への変換は事前学習済みでは? A.テキスト→3次元部分の整合性に関してftする
  4. 19 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 全体像: 損失関数 ❶ 動画品質 ・CLIPでのキャプションと の整合性 ・HSPv2での人間の好みス

    コア ❷ レンダリング画像品質 ・レンダリング画像に❶と 同じ評価 ❸ 動画と3Dの整合性 ・同じ視点でのレンダリン グ 画 像 の 類 似 度 を L2, LPIPSで評価 ❶ ❷ ❸ 潜在 表現