Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(Blog post) Diffusion is spectral autoregression

Avatar for Shumpei Takezaki Shumpei Takezaki
July 23, 2025
770

(Blog post) Diffusion is spectral autoregression

Avatar for Shumpei Takezaki

Shumpei Takezaki

July 23, 2025
Tweet

Transcript

  1. • Diffusion is spectral autoregression[Dieleman+, blog post] • (画像生成において) 拡散モデルが周波数スペクトルの自己回帰モデルとして解釈可能

    • 周波数空間で捉えて拡散モデルの性質を説明 (私見あり ) 紹介する内容 1 Blog postではあるが重要な示唆! ICLRではBlog post trackが 発足するなど重要性が増している? 𝒙0 𝒙𝑇 … … … … 𝒙𝑡−1 𝒙𝑡 Pixel Frequency … … … … Freq. Low High Magnitude Estimate!! 私見スライド で登場
  2. • 2次元フーリエ変換で空間周波数成分 (周波数スペクトル)に分解 画像空間から周波数空間へ2次元フーリエ変換 3 Pixel Frequency Low High x

    axis y axis 周波数スペクトルを画像で表現 - ピクセル値=周波数の強さ - 座標=周波数の方向
  3. • VAEの潜在変数において周波数のべき乗則を付与することでLatent diffusion modelの生成精度改善 周波数の自己回帰性があると精度改善[11] 13 Frequency Magnitude Low High

    実画像 潜在変数 高周波成分が実画像と 比較して大きい Magnitude Frequency 周波数のべき乗則を付与 (高周波成分を小さく) スケールが違うことに注意!
  4. • まとめ • 拡散モデルが周波数スペクトルの自己回帰モデルとして振る舞うことを紹介 • 周波数スペクトルの自己回帰と捉えて拡散モデルの性質を再解釈 • 感想 • 周波数空間上で捉えることで拡散モデルの研究を一貫して俯瞰できた

    • VAR[12]との関係性も気になるところ (同じ低解像度 (低周波)からの自己回帰) • 各画像のドメイン (文字,医用画像など)に適した拡散モデルが存在するかも? • 一般画像は周波数がべき乗則に従うので周波数スペクトルの自己回帰が機能 • とすると,各ドメインで周波数成分の性質を見つければ,それに合わせた 拡散モデルがデザイン可能? Summary 14
  5. [1] “Diffusion is spectral autoregression”, Sander, Dieleman, 2024, url:https://sander.ai/2024/09/02/spectral-autoregression [2]

    “Understanding Diffusion-based Representation Learning via Low-Dimensional Modeling”, Xiao Li et al., NeurIPSW, 2025 [3] ”SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations”, Chenlin Meng et al., ICLR, 2022 [4] “Guided Image Synthesis via Initial Image Editingin Diffusion Model”, Jiafeng Mao et al., ACM MM, 2023 [5] “The Silent Assistant: NoiseQuery as Implicit Guidance forGoal-Driven Image Generation”, Ruoyu Wang, arXiv preprint, 2025 [6] “TKG-DM: Training-free Chroma Key Content Generation Diffusion Model”, Ryugo Morita et al., CVPR, 2025 [7] “Explaining the sdxl latentspace”, Timothy Alexis Vass, 2024, url:https://huggingface.co/blog/TimothyAlexisVass/explaining- the-sdxl-latent-spa [8] “Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”, Arpit Bansal et al., NeurIPS, 2023 [9] ”Diffusion is not necessarily Spectral Autoregression”, Fabian Flack, 2025, url: https://www.fabianfalck.com/posts/spectralauto [10] “A Fourier Space Perspective on Diffusion Models“, Fabian Flack, arXiv Preprint, 2025 [11] ”Improving the Diffusability of Autoencoders”, Ivan Skorokhodov et al., ICML, 2025 [12] ”Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction”, Keyu Tian et al., NeurIPS, 2024 参考文献 15