Diffusion Models

Diffusion Model 1

Intro Diffusion Modelを詳しく知りたい（数ヶ月前の自分） • 少し前からDiffusion Modelという言葉をよく耳にする • 詳しくはわからんが、ノイズを加えてゴニョゴニョしているらしい • VAEは前に勉強したことあるけど、それの進化系？
• 論文は読んだけど、数式だらけでよく分からなかった • 噂によると、GANを超えたらしい • 右下のアインシュタインのイラストを見たことがある • 話題のDALL·Eを詳しく知りたい 2

Intro Diffusion Modelを詳しく知りたい（数ヶ月前の自分） • 少し前からDiffusion Modelという言葉をよく耳にする • 詳しくはわからんが、ノイズを加えてゴニョゴニョしているらしい • VAEは前に勉強したことあるけど、それの進化系？
• 論文は読んだけど、数式だらけでよく分からなかった • 噂によると、GANを超えたらしい • 右下のアインシュタインのイラストを見たことがある • 話題のDALL·Eを詳しく知りたい 3 今回はDiffusion Modelの説明・数式の導出にフォーカスします • 時間の都合上、GANとの比較・アインシュタインの話、 DALL·E 2の話は今回はしません • DALL·EなどのText to Imageについては希望があれば、またの機会にお話しようと思います。

Generative model (Statistical modeling) • 手元の観測データxから隠れ変数zを推論する（pθ(z|x)） • pθ(z|x)を事後分布（Posterior）とすると、ベイズルールから以下のように書ける ◦ pθ(x|z)は尤度（Likelihood）
◦ pθ(z|x)は事前分布（Prior） ◦ pθ(x)は周辺尤度（Marginal likelihood） • ただし、実際には分母の積分計算は解析的に解けない（ intractable） 4

Variational Inference • 分布qφ(z)でpθ(z|x)を近似させる（2つの分布のKLダイバージェンスを最小化する） • pθ(z|x)を含むKLダイバージェンスの計算は解析的に解けないので、代わりにELBOを最大化することで、qφ(z)を近似させる 5 ELBO(Evidence Lower
Bound)

VAE（Variational Autoencoder） • Variational Inferenceの近似を深層学習に拡張させた手法 • qφ(z|x)の確率分布を関数で表現し、逆伝播を可能とした（ Reparametrization trick） 6
From Autoencoder to Beta-VAE | Lil'Log

Diffusion (Probabilistic) Model • VAEはx→z→xのシンプルなモデル（Encoder・Decoder）で構成される • Diffusion Modelでは、x→z→xのモデル（Encoder・Decoder）を時系列に拡張 Diffusion Models
as a kind of VAE | Angus Turner 7

• 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程をモデリング • 隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 ◦ foward process .. 観測データにノイズを加えるプロセス（ noising）
◦ reverse process .. ノイズからデータを復元するプロセス（ denoising） Diffusion (Probabilistic) Model 8 Improving Diffusion Models as an Alternative To GANs, Part 2 | NVIDIA Technical Blog forward process reverse process

Diffusion (Probabilistic) Model Diffusion (Probabilistic) Modelの論文として有名なものは以下の２本 1. Deep Unsupervised Learning
using Nonequilibrium Thermodynamics → Diffusion Modelのオリジナルの論文 2. Denoising Diffusion Probabilistic Models → 1.を発展させた論文（モデルをシンプルにして実装を容易にし、性能向上を実現） ◦ 2.が最近のDiffusion Modelの進化を押さえる上で重要となる論文 ◦ 2.の論文を理解することで Diffusion Modelの基本的なアイデアを押さえることができる（本スライドも2.の内容の説明を中心に書かれている） ◦ Backgroundなどより深く理解したい場合は 1.も読むべき 9

• 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程を定義するモデル • 隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 • reverse processを通じて、観測データの尤度を最大化するような遷移過程を学習する Diffusion (Probabilistic) Model
10 reverse process

Foward process • 観測データにノイズを加えるプロセス ◦ β1…βtはステップ毎のバリアンスのスケジュール ◦ βを調整して徐々にノイズを加える ◦ xtはパラメータβtと前の状態xt-1をパラメータとしたガウス分布
11

Reverse process • ノイズからデータを復元するプロセス ◦ foward processで生成されたノイズxTから元の観測データ x0を復元する ◦ xt-1はパラメータμθ・Σθと前の状態xtをパラメータとしたガウス分布
◦ 観測データx0の尤度を最大化するような遷移過程を学習する（オリジナルの観測データに近づけることを目的として学習を行う） 12

Short summary • foward process ◦ 観測データにノイズを加えるプロセス ◦ パラメータβをステップ毎に与えていき、完全なノイズデータを生成する •
reverse process ◦ ノイズからデータを復元するプロセス ◦ 観測データに近づけることを目的として学習を行う 13 [2006.11239] Denoising Diffusion Probabilistic Models

Training • Generative modelの目的は観測データxに近いデータを生成（復元）すること • （大雑把に言えば）観測データxと生成データx’の違いを最小化することを目指す 14 From Autoencoder to
Beta-VAE | Lil'Log

Training • Diffusion Modelもそのモチベーションは同様 • 観測データx0の生成過程（reverse process）の尤度を最大化したい（pθ(x0)） →Negative log-likelihood（-logpθ(x0)）を損失関数とすれば良い •
ただ、周辺化すると分かるが、この積分計算は解析的に解けない（ intractable） 15

Training • 損失関数として以下の関数を定義（ Negative log-likelihood） • 直接は解析的に解けないので、代わりに右式を最小化することを考える ◦ KLダイバージェンスは常に非負なので上式が必ず成立する 16
→どのような分布のKLダイバージェンスを計算するか

Training • foward processはオリジナルの観測データにステップ毎にノイズを加える • reverse processはノイズから元の観測データに近づけることを目指す 17 foward processのノイズ過程を反転させるようなデノイジング（ノイズ除去）処理を行えば
reverse processを通じて元のデータに近いデータを生成できそう reverse processをfoward processを反転させた確率分布を近づける

Training • forward processはq(xt-1|xt)なので、反転させた分布はq(xt-1|xt) • これはforward processの事後分布 • reverse processのpθ(xt-1|xt)をforward
processの事後分布q(xt-1|xt)に近づける • 実際は特定の観測データx0で条件付けた場合のforward processの事後分布に近似させたいので、以下の最小化を目指す 18 foward process

Derivation • (3)に(4)のKLダイバージェンスを代入 • KLダイバージェンスを以下のように書き換える • ベイズルールを利用してKLダイバージェンスのforward processを変形する 19

Derivation • (6)に(7)を代入 20

Derivation • (5)に(8)を代入 • (9)のvariational lower boundの最小化問題に変形できた 21 variational lower
bound

Derivation • variational lower boundの分子はforward process、分母はreverse process • (1), (2)を(9)に代入して以下のように変形する
22 後の式変形のため、分母の p(xT)を外に出しておく

Derivation • 続けてvariational lower boundの式変形を行う 23

Derivation • 二番目のq(xt|xt-1)をベイズルールを用いて変形する • (12)を(11)に代入する 24

Derivation • 二番目の式のfoward processは任意の観測データのノイズ生成過程を示している • 特定の観測データに対するノイズ生成過程としないと非常に high varianceになる →観測データx0で条件付ける 25

Derivation • (14)を式変形する 26

Derivation • (15)を式変形する 27 Lt Lt-1 L0

Derivation • 第一項（LT） ◦ 論文ではforward processのパラメータβは固定[Ho. et al. 2020] ◦
p(xT)はN（0,I）のガウス分布 →learnableなパラメータを含まないので定数として扱う 28 [2006.11239] Denoising Diffusion Probabilistic Models

Derivation • 第二項（Lt-1） 29

Derivation • 第二項（Lt-1） ◦ varianceはステップ毎の定数（βt）で固定 [Ho et al. 2020] 30
[2006.11239] Denoising Diffusion Probabilistic Models

Derivation • 第二項（Lt-1） ◦ Lt-1は２つの分布（forward processの事後分布とreverse process）の違いそのもの ◦ ２つの分布はいずれもガウス分布であり、 KLダイバージェンスは解析的に計算できる
◦ reverse processのvarianceを固定する場合、varianceの違いはuncontrollable （learnableなパラメータを持たないので、 lossとして考慮しても意味はない） ◦ reverse processのmeanが唯一のlearnableなパラメータであり、分布間の KLダイバージェンスの計算ではなく、reverse processのmeanを最適化するようlossを設計すれば良い（reverse processのmeanをforward processの事後分布のmeanに近づける） 31 Deriving KL Divergence for Gaussians

Derivation • meanは離散値なので、lossにはMSE（Mean Square Error）を使用 ◦ (17)を(18)に代入して変形しておく 32 actual mean
predicted mean

Derivation • reparametrizationにより、meanの計算を拡張 ◦ foward processの分布からx0を定式化 33 reparametrization

• (20)を(18)のactual meanに代入して以下のように変形する Derivation 34 Diffusion Models as a kind
of VAE | Angus Turner xtからノイズを引いている

Derivation • (21)を(18)に代入する ◦ train時にxtは与えられているので、 lossとして考慮する必要はない ◦ reverse processではノイズεさえ予測できれば良い 35
Diffusion Models as a kind of VAE | Angus Turner reparameterization

Derivation • (22)を変形する 36 .. forward process(encoder)で生成されるノイズ .. reverse process(decoder)で予測するノイズ
生成されたノイズを除去（最小化）するように学習

Derivation • (23)のεθに(19)を代入 ◦ tステップ（1 ≦ t ≦ T-1）毎の上式のlossを加算する 37

Derivation • 第三項（L0） ◦ 最後のreverse processのステップからデータを復元する過程 ◦ 論文では画像を想定して以下のスケーリング処理を定義 38

Derivation • 実験では簡素化した損失関数を使用 ◦ Lt-1のスケーリングを無視 ◦ L0を損失関数から除外 ◦ この損失関数の方が実装が容易＆元の関数と同様の性能だったため最終的にはこちらを採用 39

Training • 訓練データからデータx0をサンプリング • 一様分布からステップtをサンプリング • ノイズεをサンプリング • Gradient descentを用いて最適化
40

Summary Diffusion Model • 生成過程の隠れ変数をマルコフ連鎖で繋いだグラフィカルモデル • forward processを通じて、元のデータを徐々に「破壊」する（ノイズを加える） • reverse
processを通じて、破壊されたデータを復元する工程を「学習」する • 復元工程を深層学習で正確に実現することで、生成モデルとしての高い性能を示した 41 Ayan Das · An introduction to Diffusion Probabilistic Models

参考 [Blog] • Diffusion Models as a kind of VAE
| Angus Turner • What are Diffusion Models? | Lil'Log • The Annotated Diffusion Model [YouTube] • Diffusion Models | Paper Explanation | Math Explained • What are Diffusion Models? 42 どれも分かりやすかったので、これらを参考に自身で式を追ってみることをオススメします

Diffusion Models

Diffusion Models

More Decks by kento sugimoto

Other Decks in Programming

Featured

Transcript