Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
Search
画像センシングシンポジウム
PRO
June 11, 2024
Research
2
2.4k
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
画像センシングシンポジウム
PRO
June 11, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
760
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
220
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.1k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
640
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
540
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
530
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
530
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.5k
Other Decks in Research
See All in Research
Kaggle役立ちアイテム紹介(入門編)
k951286
14
4.6k
Isotropy, Clusters, and Classifiers
hpprc
3
630
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
130
湯村研究室の紹介2024 / yumulab2024
yumulab
0
280
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
Weekly AI Agents News! 7月号 プロダクト/ニュースのアーカイブ
masatoto
0
160
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
480
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
860
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
250
20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probability Text
de9uch1
0
120
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
740
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
1
100
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
The Invisible Side of Design
smashingmag
298
50k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
A better future with KSS
kneath
238
17k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Transcript
拡散モデルの今 〜2024年の研究動向〜 2024.6.13 シーン 誠(Sakana AI)
自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に
拡散モデルの 基礎
GANとの比較 GAN 拡散モデル ノイズ画像から一気に生成 少しずつ ノイズを除去することで生成
拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE(Probability Flow ODE)として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性がある ランダム項 SDE ODE 画像時点への軌跡 画像時点への軌跡
ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている!(後述) Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法(e.g. GAN)と比べて遅い
最近の 拡散モデルの 応用先
最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
テキスト生成(1/3) 自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない 拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれて いるscoreが定義されない
これまでの単語に依存して、生成される。 同時分布は、 p(吾輩 は 猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩 は) 吾輩 吾輩 は 吾輩 は 猫
テキスト生成(2/3) • scoreの代わりに、系列間の比率(concrete score)を使う! • score:データ分布の密度の高い方向 • concrete score:系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/
テキスト生成(3/3) ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling(吾輩は?である)も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/
拡散モデルの 改善
U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース(DiT)の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている(e.g. PixArt-α, SD3, Sora)
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい
生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ(5~20倍の生成速度)で十分に なってきている! • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565
生成の高速化:Consistency Models(1/4) 拡散モデル データ分布への方向(スコア)を推定 任意の時点から直接データを推定 Consistency Models 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(2/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ① データから任意の時点の ノイズ画像をサンプル 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(3/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ② teacherからODE solverを使って、 前の時点の画像を推定 【定義】(Consistency Model)
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(4/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ③ 2つのノイズ画像をf θ に入力し、そ れぞれが近くなるように学習する 「ODEの軌道上の点は、理論的に同じ地点に戻る
」性 質を利用している! 【定義】(Consistency Model) 任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル(Generator)と識別器(Discriminator)を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像 に似るように学習 Discriminatorは元画像とGeneratorの 生成画像を区別できるように学習
見方を変えた 拡散モデル
Rectified Flow(1/3) • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE(ランダム項ないSDE)を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する
Rectified Flow(2/3) • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能! • Stable Diffusion 3で用いられている
Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003
最後に
まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手 法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る
今後の研究予想(1/2) • Transformer構造がベースとしてあるNLP技術(e.g. MoE)が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究(e.g. 異常検知) •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456
今後の研究予想(2/2) • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根 本となる”Score Matching”により忠実な目的関数の導入 データ分布への方向(スコア)を推定 本当は、真の方向⛛log p(x t
)を推定したい (pは真のデータ分布) 拡散モデル(Denoising Score Matching)は、条 件付きスコア⛛log p(x t | x 0 )を推定している
None