Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2025論文紹介:「Unboxed: Geometrically and Tempor...
Search
村川卓也
August 09, 2025
Research
0
250
CVPR2025論文紹介:「Unboxed: Geometrically and Temporally Consistent Video Outpainting」
村川卓也
August 09, 2025
Tweet
Share
Other Decks in Research
See All in Research
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
870
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
3.9k
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
110
LLMアプリケーションの透明性について
fufufukakaka
0
180
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
560
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
710
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
180
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
430
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
240
湯村研究室の紹介2025 / yumulab2025
yumulab
0
310
存立危機事態の再検討
jimboken
0
250
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
140
Featured
See All Featured
Test your architecture with Archunit
thirion
1
2.2k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4k
AI: The stuff that nobody shows you
jnunemaker
PRO
3
340
The Pragmatic Product Professional
lauravandoore
37
7.2k
How to make the Groovebox
asonas
2
2k
Code Reviewing Like a Champion
maltzj
527
40k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Tell your own story through comics
letsgokoyo
1
830
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
280
WENDY [Excerpt]
tessaabrams
9
36k
Transcript
Unboxed: Geometrically and Temporally Consistent Video Outpainting 村川卓也(名工大玉木研B4) 2025/8/9 Zhongrui
Yu, Martina Megaro-Boldini, Robert W. Sumner, Abdelaziz Djelouah CVPR2025
Video outpainting ◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法 ◼生成品質と計算コストはトレードオフ
概要 ◼従来手法のvideo outpainting • 生成領域の物体生成に弱い • 物体の重複,形状が不安定,消失 • 高解像度化への制約 •
生成時間とVRAM使用量の増加 ◼提案手法 • 3段階の生成 • 静的領域と動的オブジェクトで 個別に生成 入力動画 (左) , 提案手法, MOTIA [Wang+, ECCV2024]の比較
◼Dehan [Dehan+, CVPR2022] • オプティカルフローを用いた時間的一貫性の改善 • 視点の動きが激しい動画や動く物体の生成が困難 ◼M3DDM [Fan+, ACM
MM2023] • Diffusionと3D U-Netを用いたvideo outpainting • 動画全体から抽出したフレームによる時間的一貫性の 改善 • フレーム外情報が少ない動画の生成が困難 ◼MOTIA [Wang+, ECCV2024] • 生成前に入力動画でファインチューニングを行い, 学習動画と異なるドメインの動画の生成に対応 • 他手法と比較して生成時間とVRAM使用量が大幅に増加 • 動的オブジェクトが重複して出現することがある 関連研究
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
◼3D Gaussian Splatting • 3Dガウス分布を使用して2次元の 入力動画の3次元復元を行う 3D Gaussian SplattingとInpainting ◼Inpainting
• フレーム内のマスク部分や欠損部分 を生成 [Suvorov+, arXiv2021] [Kerbl+, arXiv2023] 入力画像 生成画像
◼動的オブジェクトをマスク 1. SAM2 [Ravi+, arXiv2024]でセグメンテーション 2. エピポーラ誤差で動的オブジェクトのセグメント を判別してマスク ◼3D Gaussian
Splatting (GS) [Kerbl+, SIGGRAPH2024]で3次元再構成 前処理
◼静的領域の生成と3D GSの更新 1. Stable Diffusion XL [Podell+, arXiv2023] (SDXL)でフ レーム外をimage
outpainting 2. 画像再構成損失(L1, SSIM)と深度損失 [Piccinelli+, CVPR2024]を最適化 3. 生成領域を3D GSモデルに反映 生成1:静的領域の生成
◼動的オブジェクトのinpainting • 前処理の段階でSAM2によって検出した動的オブジェクトを補完 • 2Dトラッキングのbboxで生成領域を指定 • 生成前に入力フレームの動的オブジェクトに部分的にマスクをして部分的に生 成することでSDXLをファインチューニング 生成2:動的オブジェクトの生成
◼改善点 • 静的領域:現実のわずかな動き(葉っぱの動き等) • 動的オブジェクト:生成2の時点で時間的一貫性に欠ける ◼Guided Video Synthesisを用いた生成品質の改善 • 各フレームに少量のノイズを付与
• 静的領域/動的オブジェクトで異なる 更新量を与えるマスクでノイズ除去 • 静的領域:小さな変化 • 動的オブジェクト:大きな変化 生成3: Guided Video Synthesisを用いた改善
◼評価データセット • DAVIS [Perazzi+, CVPR2016] • YouTube-VOS [Xu+, arXiv2018] ◼実験方法
• 各動画の左右25%, 66%をマスク • 25%, 66%で得られた値を平均 実験設定 ◼評価指標 • PSNR↑ • 生成後の画像の類似度 • SSIM↑ • 生成後の構造的な見た目の類似度 • LPIPS↓ [Zhang+, CVPR2018] • 視覚的類似度 • FVD↓ [Unterthiner+, arXiv2018] • 生成動画と入力動画の特徴分布の距離 • Ewarp ↓ [Lai+, ECCV2018] • ワープ誤差による時間的一貫性の定量 化
◼従来手法 • 生成失敗,ぼやけた生成 • 元フレームと生成領域の境界が 不自然 • 生成領域の物体の形状が不安定 ◼提案手法 •
元フレームと生成領域の一貫性 の向上 • 物体の自然な生成 定性的比較1
◼難易度の高い動画で比較 • 物体が複数出現 • 複雑な背景 定性的比較2 ◼従来手法 • ぼやけた生成 •
物体の消失や重複 • 元フレームと生成領域の境界 が不自然 ◼提案手法 • 複数物体の生成に対応 • 自然な背景の生成
◼従来手法と比較して大幅に改善 • DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録 • DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善 定量的比較
◼定性的比較 • フルパイプラインが静的・動的 領域の両方で時間的一貫性が保 たれている ◼定量的比較 • フルパイプラインが全ての評価 指標で最高値を記録 Ablation
study
◼投票による主観評価 • 37名, 619票のアンケートにより生成品質を主観的に評価 • 評価項目 • 現実感 • 時間的一貫性
• 全体的な視覚品質(色再現性,境界の滑らかさ,ぼけ具合など) • 全ての項目で提案手法は80%以上の票を獲得 User study
◼従来手法と比較して最大VRAM使用量が減少 • 生成領域が拡大してもVRAM使用量が変わらない ◼従来手法と比較して生成時間は増加 生成時間と最大VRAM使用量 OOM (Out of Memory) NVIDIA
40GB V100 GPU x1を使用
◼3段階の生成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting 3. Guided Video
Synthesisを用いた生成品質の改善 ◼従来手法との比較 • 動的オブジェクトの時間的一貫性を改善 • 全ての評価指標で高い値 • 投票の主観的評価で80%以上の票を獲得 • 最大VRAM使用量が最も少ない • 高解像度の生成でも使用量が不変 • 生成時間は増加 まとめ