(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise

拡散モデルには画像を予測させよ 2026.06.09 Shumpei Takezaki

• Back to Basics: Let Denoising Generative Models Denoise •
拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で，画像𝑥の予測 (𝒙-pred)が優れていることを提言 • なぜ？: 画像は低次元多様体上に分布(i.e., 多様体仮説) するため予測が容易紹介する論文と概要 1 CVPR2026 Accepted! 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難低次元多様体上に分布 = 予測が容易！

• 初期ノイズから徐々に画像へと変換する画像生成モデル • 速度予測 (𝒗-pred)モデルが主流 (Flow matching) • 予測モデルとしてTransformerを採用する研究が多くなっている背景:
Diffusion model (Flow matching) 2 画像 𝒙 ノイズ 𝝐 net𝜃 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 時刻 𝑡 ∈ [0,1] + 速度 𝒗 = 𝒙 − 𝝐 損失関数 ℒ = 𝒗𝜃 𝒛𝒕 , 𝑡 − 𝒗 2 𝒗𝜃 = net𝜃 (𝒛𝑡 , 𝑡) 速度を予測

• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価で交換可能事前知識: Diffusion modelにおける等価な予測 3 画像
𝒙 ノイズ 𝝐 速度 𝒗 net𝜃 例) 𝒙-pred 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 𝒙𝜃 𝒙𝜃 = net𝜃 𝝐𝜃 = (𝒛𝑡 − 𝑡𝒙𝜃 )/(1 − 𝑡) 𝒗𝜃 = (𝒙𝜃 − 𝒛𝑡 )/(1 − 𝑡) 𝒙, 𝝐, 𝒗の関係より 𝒙𝜃 , 𝒛𝑡 , 𝑡から導出可能！

• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価であるならばnetworkにどれを予測させるのが良いのか？ (or どれを予測させても一緒？) • 答え:
画像𝒙が良い!!! なぜなら，低次元多様体上に分布しているから提言: Neural networkには𝒙-predが適している 4 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難低次元多様体上に分布 = 予測が容易！

• Transformerが𝒙-predを行うDiffusion model • 𝒙-pred → 𝒗-pred に変換するだけ．損失や推論は𝒗-predモデルのまま提案手法: Just
image Transformer (JiT) 5 𝒛𝑡 𝒙𝜃 net𝜃 𝒙-pred Transformer 𝒙-pred → 𝒗-pred 学習推論

• 低次元 (2次元) データを高次元 (D次元)に射影させてDiffusion modelで予測（可視化の際には低次元に戻す） • 低次元に分布しているデータを高次元に射影することで多様体仮説を再現 Toy experiment
6 D=小さい: 予測によっての差はあまり出ない D=大きい: 𝒙-predが優位．𝝐-, 𝒗-predは崩壊

• ImageNet256x256 (左図): 𝒙-predが優位 • ImageNet64x64 (右図): 𝒙-, 𝝐-, 𝒗-predであまり差がない
• データの次元が比較的低いため，複雑な分布を予測するだけのモデル容量が確保てきている ImageNet生成タスクで𝒙-predを検証 7 FIDで評価 𝒙-predが優位予測によっての差はあまり出ない

• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 8 生成画像 (JiTH/32) 定量評価 (FID)

• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 9 生成画像 (JiTH/32) 定量評価 (FID) 補助損失，Tokenizer, 外部モデルの使用なし
比較的計算量が少ないスケーリング則

• 𝒙-pred は画像空間 (Pixel space)以外でも効果を発揮！ • 多様体仮説が成り立つようなデータなら適用可能なはず • これからも応用先は増え続けると予想画像空間以外で𝒙-predを適用した研究
10 WavFlow (Waveform space) JLT (Latent space) Funning Fu, et al., “JLT: Clean-Latent Prediction in Latent Diffusion Transformers”, arxiv preprint, arxiv:2605.27102, 2026 Feiyan Zhou, et al., “WavFlow: Audio Generation in Waveform Space”, arxiv preprint, arxiv:2605.18749, 2026

• まとめ • 拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で，画像𝑥の予測 (𝒙-pred)が優れていることを提言 • 画像は低次元多様体上に分布(i.e.,
多様体仮説) するため予測が容易であることがその要因 • Latent space, Waveform spaceでも機能することが報告 • 感想 • シンプルな提言 (拡散モデルで何を予測するのか？）かつインパクトのある結果 • 美しいまとめ 11

(CVPR2026) Back to Basics: Let Denoising Genera...

(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise

Shumpei Takezaki

More Decks by Shumpei Takezaki

Other Decks in Science

Featured

Transcript

拡散モデルには画像を予測させよ 2026.06.09 Shumpei Takezaki

• Back to Basics: Let Denoising Generative Models Denoise •

• 初期ノイズから徐々に画像へと変換する画像生成モデル • 速度予測 (𝒗-pred)モデルが主流 (Flow matching) • 予測モデルとしてTransformerを採用する研究が多くなっている背景:

• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価で交換可能事前知識: Diffusion modelにおける等価な予測 3 画像

• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価であるならばnetworkにどれを予測させるのが良いのか？ (or どれを予測させても一緒？) • 答え:

• Transformerが𝒙-predを行うDiffusion model • 𝒙-pred → 𝒗-pred に変換するだけ．損失や推論は𝒗-predモデルのまま提案手法: Just

• 低次元 (2次元) データを高次元 (D次元)に射影させてDiffusion modelで予測（可視化の際には低次元に戻す） • 低次元に分布しているデータを高次元に射影することで多様体仮説を再現 Toy experiment

• ImageNet256x256 (左図): 𝒙-predが優位 • ImageNet64x64 (右図): 𝒙-, 𝝐-, 𝒗-predであまり差がない

• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 8 生成画像 (JiTH/32) 定量評価 (FID)

• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 9 生成画像 (JiTH/32) 定量評価 (FID) 補助損失，Tokenizer, 外部モデルの使用なし

• 𝒙-pred は画像空間 (Pixel space)以外でも効果を発揮！ • 多様体仮説が成り立つようなデータなら適用可能なはず • これからも応用先は増え続けると予想画像空間以外で𝒙-predを適用した研究

• まとめ • 拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で，画像𝑥の予測 (𝒙-pred)が優れていることを提言 • 画像は低次元多様体上に分布(i.e.,