Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(CVPR2026) Back to Basics: Let Denoising Genera...
Search
Shumpei Takezaki
June 09, 2026
Science
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise
https://arxiv.org/abs/2511.13720
Shumpei Takezaki
June 09, 2026
More Decks by Shumpei Takezaki
See All by Shumpei Takezaki
(IJCNN2026) Cell Instance Segmentation via Multi-Task Image-to-Image Schrödinger Bridge
shumpei777
0
10
(IJCNN2026) SCoRe: Clean Image Generation from Diffusion Models Trained on Noisy Images
shumpei777
0
18
(Preprint) Diffusion Transformers with Representation Autoencoders
shumpei777
1
1.3k
(Blog post) Diffusion is spectral autoregression
shumpei777
3
1.3k
(Preprint) Diffusion Classifiers Understand Compositionality, but Conditions Apply
shumpei777
1
650
(ICLR2021) Score-Based Generative Modeling through Stochastic Differential Equations
shumpei777
1
680
(ICLR2023) Improving Deep Regression with Ordinal Entropy
shumpei777
0
51
(NeurIPS2024) Guiding a Diffusion Model with a Bad Version of Itself
shumpei777
0
43
(ICML2023) I2SB: Image-to-Image Schrödinger Bridge
shumpei777
0
63
Other Decks in Science
See All in Science
生成AIの現状と展望
tagtag
PRO
0
140
SHINOMIYA Nariyoshi
genomethica
0
150
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.7k
J-STAGE全文XML登載必須化について
xspa2012
0
780
因果推論と機械学習
sshimizu2006
1
1.2k
20260220 OpenIDファウンデーション・ジャパン ご紹介 / 20260220 OpenID Foundation Japan Intro
oidfj
0
360
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.5k
データベース08: 実体関連モデルとは?
trycycle
PRO
0
1.2k
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
140
東北地方における過去20年間の降水量の変化
naokimuroki
1
280
知能とはなにか -ヒトとAIのあいだ-
tagtag
PRO
1
110
Endel Tulvingとエピソード記憶
rmaruy
0
140
Featured
See All Featured
It's Worth the Effort
3n
188
29k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
370
Building the Perfect Custom Keyboard
takai
2
800
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Designing Experiences People Love
moore
143
24k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
200
Unsuck your backbone
ammeep
672
58k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
370
The Language of Interfaces
destraynor
162
27k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
66
55k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
390
How to train your dragon (web standard)
notwaldorf
97
6.7k
Transcript
拡散モデルには画像を予測させよ 2026.06.09 Shumpei Takezaki
• Back to Basics: Let Denoising Generative Models Denoise •
拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で,画像𝑥の予測 (𝒙-pred)が優れていることを提言 • なぜ?: 画像は低次元多様体上に分布(i.e., 多様体仮説) するため予測が容易 紹介する論文と概要 1 CVPR2026 Accepted! 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難 低次元多様体上に分布 = 予測が容易!
• 初期ノイズから徐々に画像へと変換する画像生成モデル • 速度予測 (𝒗-pred)モデルが主流 (Flow matching) • 予測モデルとしてTransformerを採用する研究が多くなっている 背景:
Diffusion model (Flow matching) 2 画像 𝒙 ノイズ 𝝐 net𝜃 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 時刻 𝑡 ∈ [0,1] + 速度 𝒗 = 𝒙 − 𝝐 損失関数 ℒ = 𝒗𝜃 𝒛𝒕 , 𝑡 − 𝒗 2 𝒗𝜃 = net𝜃 (𝒛𝑡 , 𝑡) 速度を予測
• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価で交換可能 事前知識: Diffusion modelにおける等価な予測 3 画像
𝒙 ノイズ 𝝐 速度 𝒗 net𝜃 例) 𝒙-pred 𝒛𝑡 = 𝑡𝒙 + 1 − 𝑡 𝝐 𝒙𝜃 𝒙𝜃 = net𝜃 𝝐𝜃 = (𝒛𝑡 − 𝑡𝒙𝜃 )/(1 − 𝑡) 𝒗𝜃 = (𝒙𝜃 − 𝒛𝑡 )/(1 − 𝑡) 𝒙, 𝝐, 𝒗の関係より 𝒙𝜃 , 𝒛𝑡 , 𝑡から導出可能!
• 画像𝒙, ノイズ𝝐, 速度𝒗 は互いに等価であるならばnetworkにどれを予測 させるのが良いのか? (or どれを予測させても一緒?) • 答え:
画像𝒙が良い!!! なぜなら,低次元多様体上に分布しているから 提言: Neural networkには𝒙-predが適している 4 画像𝒙 ノイズ𝝐 速度𝒗 高次元空間に広く分布 = 予測が困難 低次元多様体上に分布 = 予測が容易!
• Transformerが𝒙-predを行うDiffusion model • 𝒙-pred → 𝒗-pred に変換するだけ.損失や推論は𝒗-predモデルのまま 提案手法: Just
image Transformer (JiT) 5 𝒛𝑡 𝒙𝜃 net𝜃 𝒙-pred Transformer 𝒙-pred → 𝒗-pred 学習 推論
• 低次元 (2次元) データを高次元 (D次元)に射影させてDiffusion modelで予測(可視化の際には低次元に戻す) • 低次元に分布しているデータを高次元に射影することで多様体仮説を再現 Toy experiment
6 D=小さい: 予測によっての差はあまり出ない D=大きい: 𝒙-predが優位.𝝐-, 𝒗-predは崩壊
• ImageNet256x256 (左図): 𝒙-predが優位 • ImageNet64x64 (右図): 𝒙-, 𝝐-, 𝒗-predであまり差がない
• データの次元が比較的低いため,複雑な分布を予測するだけのモデル容量が確保 てきている ImageNet生成タスクで𝒙-predを検証 7 FIDで評価 𝒙-predが優位 予測によっての差はあまり出ない
• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 8 生成画像 (JiTH/32) 定量評価 (FID)
• ImageNet512x512の生成 ImageNet生成タスクで従来手法と比較 9 生成画像 (JiTH/32) 定量評価 (FID) 補助損失,Tokenizer, 外部モデルの使用なし
比較的計算量が 少ない スケーリング則
• 𝒙-pred は画像空間 (Pixel space)以外でも効果を発揮! • 多様体仮説が成り立つようなデータなら適用可能なはず • これからも応用先は増え続けると予想 画像空間以外で𝒙-predを適用した研究
10 WavFlow (Waveform space) JLT (Latent space) Funning Fu, et al., “JLT: Clean-Latent Prediction in Latent Diffusion Transformers”, arxiv preprint, arxiv:2605.27102, 2026 Feiyan Zhou, et al., “WavFlow: Audio Generation in Waveform Space”, arxiv preprint, arxiv:2605.18749, 2026
• まとめ • 拡散モデルの等価な3つの予測 (ノイズ𝝐, 速度𝒗, 画像𝒙)の中で,画像𝑥の予測 (𝒙-pred)が優れていることを提言 • 画像は低次元多様体上に分布(i.e.,
多様体仮説) するため予測が容易であるこ とがその要因 • Latent space, Waveform spaceでも機能することが報告 • 感想 • シンプルな提言 (拡散モデルで何を予測するのか?)かつインパクトのある結果 • 美しい まとめ 11