Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
Search
画像センシングシンポジウム
PRO
June 11, 2024
Research
3
2.7k
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
画像センシングシンポジウム
PRO
June 11, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
1k
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
260
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.5k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
790
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
780
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
640
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
650
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.4k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.6k
Other Decks in Research
See All in Research
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
130
国際会議ACL2024参加報告
chemical_tree
1
470
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
330
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
320
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
600
Weekly AI Agents News! 1月号 アーカイブ
masatoto
1
240
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
200
DeepSeek を利用する上でのリスクと安全性の考え方
schroneko
3
1.3k
Vision Language Modelと完全自動運転AIの最新動向
tsubasashi
1
320
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
570
知識強化言語モデルLUKE @ LUKEミートアップ
ikuyamada
0
350
BtoB プロダクトにおけるインサイトマネジメントの必要性 現場ドリブンなカミナシがインサイトマネジメントに取り組むワケ / Why field-driven Kaminashi is working on insight management
kaminashi
1
370
Featured
See All Featured
Six Lessons from altMBA
skipperchong
27
3.7k
How STYLIGHT went responsive
nonsquared
99
5.4k
Automating Front-end Workflow
addyosmani
1369
200k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Product Roadmaps are Hard
iamctodd
PRO
52
11k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
30
1.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
Optimizing for Happiness
mojombo
377
70k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
It's Worth the Effort
3n
184
28k
Transcript
拡散モデルの今 〜2024年の研究動向〜 2024.6.13 シーン 誠(Sakana AI)
自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に
拡散モデルの 基礎
GANとの比較 GAN 拡散モデル ノイズ画像から一気に生成 少しずつ ノイズを除去することで生成
拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE(Probability Flow ODE)として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性がある ランダム項 SDE ODE 画像時点への軌跡 画像時点への軌跡
ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている!(後述) Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法(e.g. GAN)と比べて遅い
最近の 拡散モデルの 応用先
最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
テキスト生成(1/3) 自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない 拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれて いるscoreが定義されない
これまでの単語に依存して、生成される。 同時分布は、 p(吾輩 は 猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩 は) 吾輩 吾輩 は 吾輩 は 猫
テキスト生成(2/3) • scoreの代わりに、系列間の比率(concrete score)を使う! • score:データ分布の密度の高い方向 • concrete score:系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/
テキスト生成(3/3) ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling(吾輩は?である)も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/
拡散モデルの 改善
U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース(DiT)の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている(e.g. PixArt-α, SD3, Sora)
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい
生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ(5~20倍の生成速度)で十分に なってきている! • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565
生成の高速化:Consistency Models(1/4) 拡散モデル データ分布への方向(スコア)を推定 任意の時点から直接データを推定 Consistency Models 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(2/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ① データから任意の時点の ノイズ画像をサンプル 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(3/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ② teacherからODE solverを使って、 前の時点の画像を推定 【定義】(Consistency Model)
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(4/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ③ 2つのノイズ画像をf θ に入力し、そ れぞれが近くなるように学習する 「ODEの軌道上の点は、理論的に同じ地点に戻る
」性 質を利用している! 【定義】(Consistency Model) 任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル(Generator)と識別器(Discriminator)を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像 に似るように学習 Discriminatorは元画像とGeneratorの 生成画像を区別できるように学習
見方を変えた 拡散モデル
Rectified Flow(1/3) • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE(ランダム項ないSDE)を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する
Rectified Flow(2/3) • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能! • Stable Diffusion 3で用いられている
Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003
最後に
まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手 法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る
今後の研究予想(1/2) • Transformer構造がベースとしてあるNLP技術(e.g. MoE)が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究(e.g. 異常検知) •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456
今後の研究予想(2/2) • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根 本となる”Score Matching”により忠実な目的関数の導入 データ分布への方向(スコア)を推定 本当は、真の方向⛛log p(x t
)を推定したい (pは真のデータ分布) 拡散モデル(Denoising Score Matching)は、条 件付きスコア⛛log p(x t | x 0 )を推定している
None