画像生成AIについて

画像生成AIの最前線拡散モデルからDriftingモデルまで Diffusion Models / Flow Matching / DiT /
Drifting Models 2026/02/10 Shibui Yusuke, with Claude Code PPTX Skills

目次 01 拡散モデルの基礎 Forward / Reverse Diffusion 02 U-Netと潜在拡散モデル LDM
/ Stable Diffusion 03 フローモデルとフロー・マッチング Normalizing Flows / Rectified Flow 04 Diffusion Transformer (DiT) U-NetからTransformerへ 05 MM-DiTとSD3 Multi-Modal Diffusion Transformer 06 Driftingモデル 1ステップ生成の新パラダイム 07 まとめと展望生成AIの未来

01 拡散モデルの基礎 Diffusion Models 現在の画像生成AIの基盤技術

拡散モデルの基本原理「秩序あるデータにノイズを混ぜて破壊し、その過程を逆転させることで無から有を生み出す」

順方向と逆方向のプロセス順方向プロセス（拡散） Forward Diffusion Process • 画像に微量のガウスノイズを段階的に追加 • 最終的に元の情報は完全に失われる
• ホワイトノイズ（純粋なランダム）へ • 数学的に定義（学習不要）逆方向プロセス（生成） Reverse Diffusion Process • ノイズからデータを段階的に復元 • NNが「除去すべきノイズ」を予測 • スコアベースモデルとも呼ばれる • 学習の本質はここにある

DDPM：数学的フレームワークノイズの付加（Forward）時刻 t における画像 x_t は前時刻の画像にノイズを加えて定義 q(x_t |
x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I) β_t：ノイズ量のスケジュール損失関数（学習目的）モデルは「含まれるノイズ量」を予測 L = E[ || ε - ε_θ(x_t, t) ||² ] ε：実際のノイズ ε_θ：モデルの予測ノイズ Denoising Diffusion Probabilistic Models (DDPM) 2020年にHo et al.により提案。ガウスノイズの付加・除去を確率過程として定式化し、高品質な画像生成を実現。非平衡熱力学の概念を応用した画期的なモデルであり、現在のStable DiffusionやDALL-Eの基礎となった。

02 U-Netと潜在拡散モデル Latent Diffusion Models 高効率な画像生成への進化

U-Netアーキテクチャ Encoder 画像の特徴を圧縮し低次元の抽象的な情報を抽出 Skip Connections エンコーダの細かい情報をデコーダに直接渡す質感やエッジの復元を支援 Time
Embedding 「今が何ステップ目か」をモデルに教え、ノイズ除去の強度を調整 U-Netは畳み込みニューラルネットワーク（CNN）の一種。対称的なエンコーダ・デコーダ構造により、画像の構造を維持しやすい。

潜在拡散モデル（LDM）元画像 (512×512) VAE Encoder 潜在空間 (64×64) 拡散プロセス VAE Decoder
生成画像 (512×512) 計算量の大幅削減潜在空間で処理することで、ピクセル空間の1/64の計算量家庭用PCで実行可能 Stable Diffusionの登場により、個人でも高品質な画像生成が可能に高品質を維持 VAEにより画像の本質的な情報を保持しつつ圧縮

条件付き生成（Conditioning）テキストから画像への変換プロセス Cross-Attention機構を使用して、テキスト情報を画像生成プロセスに注入します。 • 1. テキストをCLIPでベクトル化 • 2. U-Netのデノイズ時にベクトルを参照
• 3. プロンプトに合致した画像を誘導「猫の画像を作って」 CLIP テキストエンコーダ Cross-Attention → U-Net

拡散モデルの課題と解決策課題：生成速度が遅い 1枚の画像を生成するのに何十回もデノイズを繰り返す必要があり、GANなどの1ステップモデルに比べて計算コストが高い。サンプラー改良 DDIM等の手法で 10〜20ステップでの生成が可能に蒸留（Distillation）多段階の推論を
1段階に凝縮 (例: SDXL Turbo) フロー・マッチング拡散プロセスを直線化して効率的な生成を実現

03 フローモデルとフロー・マッチング Flow-based Models & Flow Matching 直線的な生成経路への革新

フローモデルの仕組み「粘土細工を少しずつ変形させて形を作る」イメージ正規化フロー（Normalizing Flows） • 可逆な変換関数を何度も適用 z₀ → f₁ →
f₂ → ... → fₖ → x • z₀: 単純なノイズ • x: 生成されたデータ • 1対1の対応関係を維持 • 逆変換も可能メリット • 対数尤度を正確に計算可能 • 理論上は1ステップで生成可能デメリット • 各層が「可逆」である制約が厳しい • モデル設計が難しく、メモリ消費大

拡散モデル vs フローモデル特徴拡散モデルフローモデル生成プロセス段階的（複数ステップのデノイズ） 1ステップ（変換関数の適用）数学的基盤
非平衡熱力学、スコア推定変数変換、ヤコビ行列式可逆性近似的な逆変換厳密な可逆性生成品質極めて高い高いが、拡散モデルに劣る傾向代表例 Stable Diffusion, DALL-E 3 RealNVP, Glow 現在は「拡散モデル vs フローモデル」ではなく、両者の長所を統合した技術が主流に

フロー・マッチングの核心ベクトル場の学習フロー・マッチングは「速度（ベクトル場）」を学習します。 • 1. 確率経路を p_t と定義 •
2. ベクトル場 v_t がガイドマップ • 3. NNが速度ベクトルを直接予測 Rectified Flow（整流フロー）: x_t = (1-t)x₀ + t·x₁ 理想速度 = x₁ - x₀ (定数!) 1〜4 ステップで高品質生成拡散モデル曲がった軌道 → 多くのステップ → 誤差が蓄積フロー・マッチング直線的な経路 → 少ないステップ → 高精度損失関数: L = E[ || v_θ(x_t, t) - (x₁ - x₀) ||² ]

拡散 vs フロー・マッチング特徴拡散モデルフロー・マッチング軌道の形状確率的・曲進的決定論的・直線的数学的基盤
確率微分方程式 (SDE) 常微分方程式 (ODE) 学習対象スコア（対数密度の勾配）ベクトル場（移動速度）生成速度多くのステップが必要 1〜4ステップで可能精度高いが、サンプリング誤差が出やすい直線的で誤差が蓄積しにくい

04 Diffusion Transformer DiT U-NetからTransformerへの革新

なぜU-NetからTransformerへ？ U-Netの限界 • スケーラビリティの限界 → モデルを大きくしても性能向上が不明確 • 長距離依存関係が苦手 → CNNベースのため画像の遠い部分の関係性を捉
えにくい DiTの強み • スケーリング則が明確 → 大きくすればするほど高品質 • Self-Attentionで全体を把握 → 長距離依存関係を自然に学習 DiTのパイプライン画像 → パッチ化 → Transformerブロック(Self-Attention + AdaLN) → 条件付け(時刻t, テキスト) → 出力

DiTの仕組み 1 パッチ化潜在空間の画像を小さなパッチに分割。例: 32×32 → 4×4パッチ = 64トークン。Transformerが「単語」を処理するように画像を処理する。
2 Transformerブロック Self-Attentionにより「どのパッチがどのパッチと関係しているか」を計算。全パッチ間の関係性を同時に把握する。 3 AdaLN-Zero条件付け時刻t、クラスラベル、テキスト等の情報をAdaptive Layer Normで動的に注入。レイヤー正規化のパラメータを条件に応じて変化させる。

DiTの3大メリット 68 45 23 10 0 10 20 30 40
50 60 70 80 DiT-S DiT-M DiT-L DiT-XL スケーリング効果 (FID) スケーリング則パラメータ・計算量を増やすほど品質が向上する明確な法則学習の効率化標準化された構造により最新GPU/TPUでの高速化が容易汎用性画像から動画へ。パッチの切り方を変えるだけで3Dデータにも対応採用モデル: Stable Diffusion 3 | Flux.1 | OpenAI Sora | Drifting Models

05 MM-DiTとSD3 Multi-Modal Diffusion Transformer テキストと画像の相互理解を深める最新構造

MM-DiTアーキテクチャ

MM-DiTの3大利点「2つの脳と1つのテーブル」：画像とテキストを独立処理し、Joint Attentionで統合プロンプト追従性 Joint Attentionにより画像とテキストが直接対話。複雑な指示も正確に反映できる。学習の安定性画像・テキストの独立した重みが干
渉を防止。マルチモーダル学習が安定する。スケーラビリティテキストエンコーダの巨大化にも対応。T5-XXLなどの大規模言語モデルとの統合が容易。採用例: Stable Diffusion 3 (SD3) — U-Netを完全に廃止し、MM-DiTベースのアーキテクチャを採用

06 Driftingモデル Generative Modeling via Drifting 1ステップ生成の新パラダイム — Kaiming He
(MIT)

Driftingの核心メカニズム核心：「推論を高速化するためにモデルを蒸留する」のではなく、「最初から1ステップで終わるように分布を進化させる」プッシュフォワード NNの出力分布 q_θ を「漂流」させてデータ分布に適合。学習のイテレーション =
分布の進化。ドリフト場生成分布をデータ分布に近づける「ガイド」ベクトル場 V。p = q で V = 0（平衡状態）になる設計。引力と斥力データからの「引力」+ 生成分布からの「斥力」でバランスを維持。モード崩壊を防止。

Driftingの実装 Tokenizer SD互換のVAEを使用潜在空間(64×64)で生成アーキテクチャ DiT類似構造 SwiGLU / ROPE /
RMSNorm QK-Norm採用特徴抽出器カスタムlatent-MAE (ResNetベース) 学習時のみ使用 CFG統合学習時にCFGを組み込み推論時も1ステップ維持スケールをランダムサンプリング ImageNet 256×256: 1ステップ生成で FID 1.54 を達成

生成モデルの進化と比較

FID性能比較 ImageNet 256×256 （低いほど高品質） 2.30 SD XL (Diffusion) 2.10 iMF
(SOTA 1-step) 1.54 Drifting (Latent) 1.54 Drifting (SOTA)

07 まとめと展望 Summary & Future Outlook 生成AIの未来を展望する

技術の進化タイムライン 2020 DDPM 拡散モデルの基礎確立 2022 LDM/SD 潜在拡散モデル家庭PCで生成 2023
DiT Transformer の導入 2024 Flow Matching 直線的経路で高速化 2025 Drifting 1ステップ生成の実現トレンド：より少ないステップで、より高品質な生成を実現する方向へ進化「いかに巨大なモデルに、いかに直線的な経路を学習させるか」が現在のテーマ。その基盤がDiT + Flow Matching。

キーポイント拡散モデルは「ノイズ追加→除去」のシンプルな原理で高品質な生成を実現潜在拡散モデル(LDM)が計算量を大幅削減し、一般利用を可能にしたフロー・マッチングの「直線化」により、生成ステップ数が劇的に減少 DiT（Diffusion Transformer）がスケーリング則をもたらし、品質向上の道を開いた MM-DiTがテキストと画像の深い統合を実現し、プロンプト追従性が向上 Driftingモデルが1ステップ生成で最高水準のFID 1.54を達成 —
新パラダイム

ありがとうございました生成AIの進化は加速し続けています。拡散モデル → フロー・マッチング → DiT → Drifting 次の突破口はどこから？

画像生成AIについて

画像生成AIについて

shibuiwilliam

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript

画像生成AIの最前線拡散モデルからDriftingモデルまで Diffusion Models / Flow Matching / DiT /

目次 01 拡散モデルの基礎 Forward / Reverse Diffusion 02 U-Netと潜在拡散モデル LDM

01 拡散モデルの基礎 Diffusion Models 現在の画像生成AIの基盤技術

拡散モデルの基本原理「秩序あるデータにノイズを混ぜて破壊し、その過程を逆転させることで無から有を生み出す」

順方向と逆方向のプロセス順方向プロセス（拡散） Forward Diffusion Process • 画像に微量のガウスノイズを段階的に追加 • 最終的に元の情報は完全に失われる

DDPM：数学的フレームワークノイズの付加（Forward）時刻 t における画像 x_t は前時刻の画像にノイズを加えて定義 q(x_t |

02 U-Netと潜在拡散モデル Latent Diffusion Models 高効率な画像生成への進化

U-Netアーキテクチャ Encoder 画像の特徴を圧縮し低次元の抽象的な情報を抽出 Skip Connections エンコーダの細かい情報をデコーダに直接渡す質感やエッジの復元を支援 Time

潜在拡散モデル（LDM）元画像 (512×512) VAE Encoder 潜在空間 (64×64) 拡散プロセス VAE Decoder

条件付き生成（Conditioning）テキストから画像への変換プロセス Cross-Attention機構を使用して、テキスト情報を画像生成プロセスに注入します。 • 1. テキストをCLIPでベクトル化 • 2. U-Netのデノイズ時にベクトルを参照

03 フローモデルとフロー・マッチング Flow-based Models & Flow Matching 直線的な生成経路への革新

フローモデルの仕組み「粘土細工を少しずつ変形させて形を作る」イメージ正規化フロー（Normalizing Flows） • 可逆な変換関数を何度も適用 z₀ → f₁ →

拡散モデル vs フローモデル特徴拡散モデルフローモデル生成プロセス段階的（複数ステップのデノイズ） 1ステップ（変換関数の適用）数学的基盤

フロー・マッチングの核心ベクトル場の学習フロー・マッチングは「速度（ベクトル場）」を学習します。 • 1. 確率経路を p_t と定義 •

拡散 vs フロー・マッチング特徴拡散モデルフロー・マッチング軌道の形状確率的・曲進的決定論的・直線的数学的基盤

04 Diffusion Transformer DiT U-NetからTransformerへの革新

なぜU-NetからTransformerへ？ U-Netの限界 • スケーラビリティの限界 → モデルを大きくしても性能向上が不明確 • 長距離依存関係が苦手 → CNNベースのため画像の遠い部分の関係性を捉

DiTの仕組み 1 パッチ化潜在空間の画像を小さなパッチに分割。例: 32×32 → 4×4パッチ = 64トークン。Transformerが「単語」を処理するように画像を処理する。

DiTの3大メリット 68 45 23 10 0 10 20 30 40

05 MM-DiTとSD3 Multi-Modal Diffusion Transformer テキストと画像の相互理解を深める最新構造

MM-DiTアーキテクチャ

06 Driftingモデル Generative Modeling via Drifting 1ステップ生成の新パラダイム — Kaiming He

Driftingの実装 Tokenizer SD互換のVAEを使用潜在空間(64×64)で生成アーキテクチャ DiT類似構造 SwiGLU / ROPE /

生成モデルの進化と比較

FID性能比較 ImageNet 256×256 （低いほど高品質） 2.30 SD XL (Diffusion) 2.10 iMF

07 まとめと展望 Summary & Future Outlook 生成AIの未来を展望する

技術の進化タイムライン 2020 DDPM 拡散モデルの基礎確立 2022 LDM/SD 潜在拡散モデル家庭PCで生成 2023

ありがとうございました生成AIの進化は加速し続けています。拡散モデル → フロー・マッチング → DiT → Drifting 次の突破口はどこから？