(Blog post) Diffusion is spectral autoregression

周波数で捉える拡散モデル 2025/7/23@論文読み会 Shumpei Takezaki (D2, Uchida Lab.)

• Diffusion is spectral autoregression[Dieleman+, blog post] • (画像生成において) 拡散モデルが周波数スペクトルの自己回帰モデルとして解釈可能
• 周波数空間で捉えて拡散モデルの性質を説明 (私見あり ) 紹介する内容 1 Blog postではあるが重要な示唆! ICLRではBlog post trackが発足するなど重要性が増している? 𝒙0 𝒙𝑇 … … … … 𝒙𝑡−1 𝒙𝑡 Pixel Frequency … … … … Freq. Low High Magnitude Estimate!! 私見スライドで登場

周波数空間の自己回帰モデル 2

• 2次元フーリエ変換で空間周波数成分 (周波数スペクトル)に分解画像空間から周波数空間へ2次元フーリエ変換 3 Pixel Frequency Low High x
axis y axis 周波数スペクトルを画像で表現 - ピクセル値=周波数の強さ - 座標=周波数の方向

• 対数プロットでは周波数スペクトルは線形に減衰周波数スペクトルはべき乗則に従う 4 High Low

拡散(逆拡散)過程における周波数スペクトル 5 ランダムノイズ元画像ノイズ付与画像周波数スペクトル - 元画像: べき乗則に従う -
ランダムノイズ: 一様な分布 - ノイズ付与画像: 高周波成分のみ一様

• 拡散過程: 高周波スペクトルから徐々に壊す • 逆拡散過程: 低周波スペクトルから次の高周波スペクトルを自己回帰拡散モデル＝周波数スペクトルの自己回帰モデル 6 𝒙0 𝒙𝑇
… … … … 𝒙𝑡−1 𝒙𝑡 Pixel Frequency … … … … Freq. Low High Magnitude Estimate!!

周波数で理解する拡散モデルの性質 7

• 低周波成分 → 高周波成分の生成と一致拡散モデルは時刻(=ノイズレベル)に応じて粗い→細かい生成を行う[2] 8 時刻小時刻大
低周波成分高周波成分 [2]より抜粋

• ソース画像の低周波成分からターゲット画像の高周波成分を推定 SDEdit: 学習済み拡散モデルを用いたドメイン変換[3] 9 Source Target Freq. Low High
Low (Source) High (Target)

• 初期ノイズに含まれる低周波成分 (色味や物体位置)で生成画像の低周波成分が決定されていると解釈初期ノイズで決まる生成画像の構成要素 10 初期ノイズは生成画像の色に関係[5,6,7] 初期ノイズが生成画像の物体位置に関係[4,5] [4]より抜粋 [６]より抜粋
高周波成分は初期ノイズでは制御できない? (人間は知覚できないのでどれくらい意味があるかは不明）

• Cold diffusion[8] (ガウシアンノイズ以外で拡散過程を構築)などは周波数の自己回帰性が働いているように思えない画像生成に周波数の自己回帰性は必要？ 11 Original Generated Degraded
Forward Reverse Animorph Mask Snow

• 全ての周波数成分で均一なノイズを付与しても高精度な画像生成が可能 • ただし，低周波成分から壊す (逆に，高周波成分から生成)ようなノイズ付与の場合は精度が悪化周波数の自己回帰性はなくてもいい[9,10] 12 従来: 高周波成分からノイズを付与
すべての周波数成分を均一にノイズ化低周波成分からノイズを付与従来よりも良くなるときもあるらしい

• VAEの潜在変数において周波数のべき乗則を付与することでLatent diffusion modelの生成精度改善周波数の自己回帰性があると精度改善[11] 13 Frequency Magnitude Low High
実画像潜在変数高周波成分が実画像と比較して大きい Magnitude Frequency 周波数のべき乗則を付与 (高周波成分を小さく) スケールが違うことに注意！

• まとめ • 拡散モデルが周波数スペクトルの自己回帰モデルとして振る舞うことを紹介 • 周波数スペクトルの自己回帰と捉えて拡散モデルの性質を再解釈 • 感想 • 周波数空間上で捉えることで拡散モデルの研究を一貫して俯瞰できた
• VAR[12]との関係性も気になるところ (同じ低解像度 (低周波)からの自己回帰) • 各画像のドメイン (文字，医用画像など)に適した拡散モデルが存在するかも？ • 一般画像は周波数がべき乗則に従うので周波数スペクトルの自己回帰が機能 • とすると，各ドメインで周波数成分の性質を見つければ，それに合わせた拡散モデルがデザイン可能？ Summary 14

[1] “Diffusion is spectral autoregression”, Sander, Dieleman, 2024, url:https://sander.ai/2024/09/02/spectral-autoregression [2]
“Understanding Diffusion-based Representation Learning via Low-Dimensional Modeling”, Xiao Li et al., NeurIPSW, 2025 [3] ”SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations”, Chenlin Meng et al., ICLR, 2022 [4] “Guided Image Synthesis via Initial Image Editingin Diffusion Model”, Jiafeng Mao et al., ACM MM, 2023 [5] “The Silent Assistant: NoiseQuery as Implicit Guidance forGoal-Driven Image Generation”, Ruoyu Wang, arXiv preprint, 2025 [6] “TKG-DM: Training-free Chroma Key Content Generation Diffusion Model”, Ryugo Morita et al., CVPR, 2025 [7] “Explaining the sdxl latentspace”, Timothy Alexis Vass, 2024, url:https://huggingface.co/blog/TimothyAlexisVass/explaining- the-sdxl-latent-spa [8] “Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”, Arpit Bansal et al., NeurIPS, 2023 [9] ”Diffusion is not necessarily Spectral Autoregression”, Fabian Flack, 2025, url: https://www.fabianfalck.com/posts/spectralauto [10] “A Fourier Space Perspective on Diffusion Models“, Fabian Flack, arXiv Preprint, 2025 [11] ”Improving the Diffusability of Autoencoders”, Ivan Skorokhodov et al., ICML, 2025 [12] ”Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction”, Keyu Tian et al., NeurIPS, 2024 参考文献 15

(Blog post) Diffusion is spectral autoregression

(Blog post) Diffusion is spectral autoregression

Shumpei Takezaki

More Decks by Shumpei Takezaki

Featured

Transcript

周波数で捉える拡散モデル 2025/7/23@論文読み会 Shumpei Takezaki (D2, Uchida Lab.)

• Diffusion is spectral autoregression[Dieleman+, blog post] • (画像生成において) 拡散モデルが周波数スペクトルの自己回帰モデルとして解釈可能

周波数空間の自己回帰モデル 2

• 2次元フーリエ変換で空間周波数成分 (周波数スペクトル)に分解画像空間から周波数空間へ2次元フーリエ変換 3 Pixel Frequency Low High x

• 対数プロットでは周波数スペクトルは線形に減衰周波数スペクトルはべき乗則に従う 4 High Low

拡散(逆拡散)過程における周波数スペクトル 5 ランダムノイズ元画像ノイズ付与画像周波数スペクトル - 元画像: べき乗則に従う -

• 拡散過程: 高周波スペクトルから徐々に壊す • 逆拡散過程: 低周波スペクトルから次の高周波スペクトルを自己回帰拡散モデル＝周波数スペクトルの自己回帰モデル 6 𝒙0 𝒙𝑇

周波数で理解する拡散モデルの性質 7

• 低周波成分 → 高周波成分の生成と一致拡散モデルは時刻(=ノイズレベル)に応じて粗い→細かい生成を行う[2] 8 時刻小時刻大

• ソース画像の低周波成分からターゲット画像の高周波成分を推定 SDEdit: 学習済み拡散モデルを用いたドメイン変換[3] 9 Source Target Freq. Low High

• Cold diffusion[8] (ガウシアンノイズ以外で拡散過程を構築)などは周波数の自己回帰性が働いているように思えない画像生成に周波数の自己回帰性は必要？ 11 Original Generated Degraded

• VAEの潜在変数において周波数のべき乗則を付与することでLatent diffusion modelの生成精度改善周波数の自己回帰性があると精度改善[11] 13 Frequency Magnitude Low High

[1] “Diffusion is spectral autoregression”, Sander, Dieleman, 2024, url:https://sander.ai/2024/09/02/spectral-autoregression [2]