SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜

拡散モデルの今〜2024年の研究動向〜 2024.6.13  シーン誠（Sakana AI）

自己紹介：シーン　誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベースのtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例左：「北極にある京都」右：「ひまわりの油絵」

今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に

拡散モデルの基礎

GANとの比較 GAN 拡散モデルノイズ画像から一気に生成少しずつノイズを除去することで生成

拡散モデルの学習入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向（scoreと呼ぶ）目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって近似している（Denoising score matching） “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456

拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE（Probability Flow ODE）として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性があるランダム項 SDE ODE 画像時点への軌跡画像時点への軌跡

ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている！（後述） Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456

拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法（e.g. GAN）と比べて遅い

最近の拡散モデルの応用先

最近の拡散モデルの応用先動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成

テキスト生成（1/3）自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれているscoreが定義されない
これまでの単語に依存して、生成される。同時分布は、 p(吾輩は猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩は) 吾輩吾輩は吾輩は猫

テキスト生成（2/3） • scoreの代わりに、系列間の比率（concrete score）を使う！ • score：データ分布の密度の高い方向 • concrete score：系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/

テキスト生成（3/3） ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling（吾輩は？である）も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/

拡散モデルの改善

U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース（DiT）の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている（e.g. PixArt-α, SD3, Sora）
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい

生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ（5~20倍の生成速度）で十分になってきている！ • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565

生成の高速化：Consistency Models（1/4）拡散モデルデータ分布への方向（スコア）を推定任意の時点から直接データを推定 Consistency Models 【定義】（Consistency Model）任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

生成の高速化：Consistency Models（2/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ① データから任意の時点のノイズ画像をサンプル【定義】（Consistency Model）任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

生成の高速化：Consistency Models（3/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ② teacherからODE solverを使って、前の時点の画像を推定【定義】（Consistency Model）
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

生成の高速化：Consistency Models（4/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ③ 2つのノイズ画像をf θ に入力し、それぞれが近くなるように学習する「ODEの軌道上の点は、理論的に同じ地点に戻る
」性質を利用している！【定義】（Consistency Model）任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

生成の高速化：敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル（Generator）と識別器（Discriminator）を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像に似るように学習 Discriminatorは元画像とGeneratorの生成画像を区別できるように学習

見方を変えた拡散モデル

Rectified Flow（1/3） • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE（ランダム項ないSDE）を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する

Rectified Flow（2/3） • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能！ • Stable Diffusion 3で用いられている

Rectified Flow（3/3） • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003

最後に

まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る

今後の研究予想（1/2） • Transformer構造がベースとしてあるNLP技術（e.g. MoE）が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究（e.g. 異常検知） •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456

今後の研究予想（2/2） • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根本となる”Score Matching”により忠実な目的関数の導入データ分布への方向（スコア）を推定本当は、真の方向⛛log p(x t
)を推定したい（pは真のデータ分布）拡散モデル（Denoising Score Matching）は、条件付きスコア⛛log p(x t | x 0 )を推定している

SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜

SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

拡散モデルの今〜2024年の研究動向〜 2024.6.13  シーン誠（Sakana AI）

自己紹介：シーン　誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana

今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.

拡散モデルの基礎

GANとの比較 GAN 拡散モデルノイズ画像から一気に生成少しずつノイズを除去することで生成

拡散モデルの学習入力 • 画像 • 時間 t ∊ [0, T]

拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE（Probability Flow ODE）として解いている • 最初のノイズ画像が決まれば決定的に決まる •

拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法（e.g. GAN）と比べて遅い

最近の拡散モデルの応用先

最近の拡散モデルの応用先動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成

テキスト生成（1/3）自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれているscoreが定義されない

テキスト生成（2/3） • scoreの代わりに、系列間の比率（concrete score）を使う！ • score：データ分布の密度の高い方向 • concrete score：系列xと比べた時の系列yの出やすさ ∇log

テキスト生成（3/3） ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling（吾輩は？である）も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling

拡散モデルの改善

U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース（DiT）の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている（e.g. PixArt-α, SD3, Sora）

生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ（5~20倍の生成速度）で十分になってきている！ • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565

生成の高速化：Consistency Models（1/4）拡散モデルデータ分布への方向（スコア）を推定任意の時点から直接データを推定 Consistency Models 【定義】（Consistency Model）任意の時点t,

生成の高速化：Consistency Models（2/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ① データから任意の時点のノイズ画像をサンプル【定義】（Consistency Model）任意の時点t,

生成の高速化：Consistency Models（3/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ② teacherからODE solverを使って、前の時点の画像を推定【定義】（Consistency Model）

見方を変えた拡散モデル

Rectified Flow（1/3） • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE（ランダム項ないSDE）を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する

Rectified Flow（2/3） • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能！ • Stable Diffusion 3で用いられている

Rectified Flow（3/3） • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能

最後に

今後の研究予想（1/2） • Transformer構造がベースとしてあるNLP技術（e.g. MoE）が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究（e.g. 異常検知） •

SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜

SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜