Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(CVPR2026) Back to Basics: Let Denoising Genera...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise

Avatar for Shumpei Takezaki

Shumpei Takezaki

June 09, 2026

More Decks by Shumpei Takezaki

Other Decks in Science

Transcript

  1. • Back to Basics: Let Denoising Generative Models Denoise •

    拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で,画像𝑥の予測 (𝒙-pred)が優れていることを提言 • なぜ?: 画像は低次元多様体上に分布(i.e., 多様体仮説) するため予測が容易 紹介する論文と概要 1 CVPR2026 Accepted! 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難 低次元多様体上に分布 = 予測が容易!
  2. • 初期ノイズから徐々に画像へと変換する画像生成モデル • 速度予測 (𝒗-pred)モデルが主流 (Flow matching) • 予測モデルとしてTransformerを採用する研究が多くなっている 背景:

    Diffusion model (Flow matching) 2 画像 𝒙 ノイズ 𝝐 net𝜃 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 時刻 𝑡 ∈ [0,1] + 速度 𝒗 = 𝒙 − 𝝐 損失関数 ℒ = 𝒗𝜃 𝒛𝒕 , 𝑡 − 𝒗 2 𝒗𝜃 = net𝜃 (𝒛𝑡 , 𝑡) 速度を予測
  3. • 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価で交換可能 事前知識: Diffusion modelにおける等価な予測 3 画像

    𝒙 ノイズ 𝝐 速度 𝒗 net𝜃 例) 𝒙-pred 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 𝒙𝜃 𝒙𝜃 = net𝜃 𝝐𝜃 = (𝒛𝑡 − 𝑡𝒙𝜃 )/(1 − 𝑡) 𝒗𝜃 = (𝒙𝜃 − 𝒛𝑡 )/(1 − 𝑡) 𝒙, 𝝐, 𝒗の関係より 𝒙𝜃 , 𝒛𝑡 , 𝑡から導出可能!
  4. • 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価であるならばnetworkにどれを予測 させるのが良いのか? (or どれを予測させても一緒?) • 答え:

    画像𝒙が良い!!! なぜなら,低次元多様体上に分布しているから 提言: Neural networkには𝒙-predが適している 4 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難 低次元多様体上に分布 = 予測が容易!
  5. • Transformerが𝒙-predを行うDiffusion model • 𝒙-pred → 𝒗-pred に変換するだけ.損失や推論は𝒗-predモデルのまま 提案手法: Just

    image Transformer (JiT) 5 𝒛𝑡 𝒙𝜃 net𝜃 𝒙-pred Transformer 𝒙-pred → 𝒗-pred 学習 推論
  6. • ImageNet256x256 (左図): 𝒙-predが優位 • ImageNet64x64 (右図): 𝒙-, 𝝐-, 𝒗-predであまり差がない

    • データの次元が比較的低いため,複雑な分布を予測するだけのモデル容量が確保 てきている ImageNet生成タスクで𝒙-predを検証 7 FIDで評価 𝒙-predが優位 予測によっての差はあまり出ない
  7. • 𝒙-pred は画像空間 (Pixel space)以外でも効果を発揮! • 多様体仮説が成り立つようなデータなら適用可能なはず • これからも応用先は増え続けると予想 画像空間以外で𝒙-predを適用した研究

    10 WavFlow (Waveform space) JLT (Latent space) Funning Fu, et al., “JLT: Clean-Latent Prediction in Latent Diffusion Transformers”, arxiv preprint, arxiv:2605.27102, 2026 Feiyan Zhou, et al., “WavFlow: Audio Generation in Waveform Space”, arxiv preprint, arxiv:2605.18749, 2026
  8. • まとめ • 拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で,画像𝑥の予測 (𝒙-pred)が優れていることを提言 • 画像は低次元多様体上に分布(i.e.,

    多様体仮説) するため予測が容易であるこ とがその要因 • Latent space, Waveform spaceでも機能することが報告 • 感想 • シンプルな提言 (拡散モデルで何を予測するのか?)かつインパクトのある結果 • 美しい まとめ 11