Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2025論文紹介:Unboxed
Search
村川卓也
August 09, 2025
Research
0
140
CVPR2025論文紹介:Unboxed
村川卓也
August 09, 2025
Tweet
Share
Other Decks in Research
See All in Research
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
4
990
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
140
CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations
satai
3
250
単施設でできる臨床研究の考え方
shuntaros
0
2.3k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
0
140
数理最適化と機械学習の融合
mickey_kubo
16
9.2k
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
1k
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
180
経済学と機械学習:因果推論と密度比推定を中心に
masakat0
0
130
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
260
最適化と機械学習による問題解決
mickey_kubo
0
160
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
1.4k
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
25
1.8k
Rails Girls Zürich Keynote
gr2m
95
14k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.4k
How GitHub (no longer) Works
holman
315
140k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Designing for humans not robots
tammielis
253
25k
Navigating Team Friction
lara
189
15k
For a Future-Friendly Web
brad_frost
179
9.9k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
560
Into the Great Unknown - MozCon
thekraken
40
2k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Transcript
Unboxed: Geometrically and Temporally Consistent Video Outpainting 村川卓也(名工大玉木研B4) 2025/8/9 Zhongrui
Yu, Martina Megaro-Boldini, Robert W. Sumner, Abdelaziz Djelouah CVPR2025
Video outpainting ◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法 ◼生成品質と計算コストはトレードオフ
概要 ◼従来手法のvideo outpainting • 生成領域の物体生成に弱い • 物体の重複,形状が不安定,消失 • 高解像度化への制約 •
生成時間とVRAM使用量の増加 ◼提案手法 • 3段階の生成 • 静的領域と動的オブジェクトで 個別に生成 入力動画 (左) , 提案手法, MOTIA [Wang+, ECCV2024]の比較
◼Dehan [Dehan+, CVPR2022] • オプティカルフローを用いた時間的一貫性の改善 • 視点の動きが激しい動画や動く物体の生成が困難 ◼M3DDM [Fan+, ACM
MM2023] • Diffusionと3D U-Netを用いたvideo outpainting • 動画全体から抽出したフレームによる時間的一貫性の 改善 • フレーム外情報が少ない動画の生成が困難 ◼MOTIA [Wang+, ECCV2024] • 生成前に入力動画でファインチューニングを行い, 学習動画と異なるドメインの動画の生成に対応 • 他手法と比較して生成時間とVRAM使用量が大幅に増加 • 動的オブジェクトが重複して出現することがある 関連研究
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
◼3D Gaussian Splatting • 3Dガウス分布を使用して2次元の 入力動画の3次元復元を行う 3D Gaussian SplattingとInpainting ◼Inpainting
• フレーム内のマスク部分や欠損部分 を生成 [Suvorov+, arXiv2021] [Kerbl+, arXiv2023] 入力画像 生成画像
◼動的オブジェクトをマスク 1. SAM2 [Ravi+, arXiv2024]でセグメンテーション 2. エピポーラ誤差で動的オブジェクトのセグメント を判別してマスク ◼3D Gaussian
Splatting (GS) [Kerbl+, SIGGRAPH2024]で3次元再構成 前処理
◼静的領域の生成と3D GSの更新 1. Stable Diffusion XL [Podell+, arXiv2023] (SDXL)でフ レーム外をimage
outpainting 2. 画像再構成損失(L1, SSIM)と深度損失 [Piccinelli+, CVPR2024]を最適化 3. 生成領域を3D GSモデルに反映 生成1:静的領域の生成
◼動的オブジェクトのinpainting • 前処理の段階でSAM2によって検出した動的オブジェクトを補完 • 2Dトラッキングのbboxで生成領域を指定 • 生成前に入力フレームの動的オブジェクトに部分的にマスクをして部分的に生 成することでSDXLをファインチューニング 生成2:動的オブジェクトの生成
◼改善点 • 静的領域:現実のわずかな動き(葉っぱの動き等) • 動的オブジェクト:生成2の時点で時間的一貫性に欠ける ◼Guided Video Synthesisを用いた生成品質の改善 • 各フレームに少量のノイズを付与
• 静的領域/動的オブジェクトで異なる 更新量を与えるマスクでノイズ除去 • 静的領域:小さな変化 • 動的オブジェクト:大きな変化 生成3: Guided Video Synthesisを用いた改善
◼評価データセット • DAVIS [Perazzi+, CVPR2016] • YouTube-VOS [Xu+, arXiv2018] ◼実験方法
• 各動画の左右25%, 66%をマスク • 25%, 66%で得られた値を平均 実験設定 ◼評価指標 • PSNR↑ • 生成後の画像の類似度 • SSIM↑ • 生成後の構造的な見た目の類似度 • LPIPS↓ [Zhang+, CVPR2018] • 視覚的類似度 • FVD↓ [Unterthiner+, arXiv2018] • 生成動画と入力動画の特徴分布の距離 • Ewarp ↓ [Lai+, ECCV2018] • ワープ誤差による時間的一貫性の定量 化
◼従来手法 • 生成失敗,ぼやけた生成 • 元フレームと生成領域の境界が 不自然 • 生成領域の物体の形状が不安定 ◼提案手法 •
元フレームと生成領域の一貫性 の向上 • 物体の自然な生成 定性的比較1
◼難易度の高い動画で比較 • 物体が複数出現 • 複雑な背景 定性的比較2 ◼従来手法 • ぼやけた生成 •
物体の消失や重複 • 元フレームと生成領域の境界 が不自然 ◼提案手法 • 複数物体の生成に対応 • 自然な背景の生成
◼従来手法と比較して大幅に改善 • DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録 • DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善 定量的比較
◼定性的比較 • フルパイプラインが静的・動的 領域の両方で時間的一貫性が保 たれている ◼定量的比較 • フルパイプラインが全ての評価 指標で最高値を記録 Ablation
study
◼投票による主観評価 • 37名, 619票のアンケートにより生成品質を主観的に評価 • 評価項目 • 現実感 • 時間的一貫性
• 全体的な視覚品質(色再現性,境界の滑らかさ,ぼけ具合など) • 全ての項目で提案手法は80%以上の票を獲得 User study
◼従来手法と比較して最大VRAM使用量が減少 • 生成領域が拡大してもVRAM使用量が変わらない ◼従来手法と比較して生成時間は増加 生成時間と最大VRAM使用量 OOM (Out of Memory) NVIDIA
40GB V100 GPU x1を使用
◼3段階の生成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting 3. Guided Video
Synthesisを用いた生成品質の改善 ◼従来手法との比較 • 動的オブジェクトの時間的一貫性を改善 • 全ての評価指標で高い値 • 投票の主観的評価で80%以上の票を獲得 • 最大VRAM使用量が最も少ない • 高解像度の生成でも使用量が不変 • 生成時間は増加 まとめ