Upgrade to Pro — share decks privately, control downloads, hide ads and more …

画像生成AIについて

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 画像生成AIについて

画像生成AIについて、Deep researchとNano banana、Claude Code PPTX Skillsを組み合わせて自動生成した資料。
資料作成をほぼ自動化できた。

Avatar for shibuiwilliam

shibuiwilliam

February 09, 2026
Tweet

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. 目次 01 拡散モデルの基礎 Forward / Reverse Diffusion 02 U-Netと潜在拡散モデル LDM

    / Stable Diffusion 03 フローモデルとフロー・マッチング Normalizing Flows / Rectified Flow 04 Diffusion Transformer (DiT) U-NetからTransformerへ 05 MM-DiTとSD3 Multi-Modal Diffusion Transformer 06 Driftingモデル 1ステップ生成の新パラダイム 07 まとめと展望 生成AIの未来
  2. 順方向と逆方向のプロセス 順方向プロセス(拡散) Forward Diffusion Process • 画像に微量のガウスノイズを段階的に 追加 • 最終的に元の情報は完全に失われる

    • ホワイトノイズ(純粋なランダム)へ • 数学的に定義(学習不要) 逆方向プロセス(生成) Reverse Diffusion Process • ノイズからデータを段階的に復元 • NNが「除去すべきノイズ」を予測 • スコアベースモデルとも呼ばれる • 学習の本質はここにある
  3. DDPM:数学的フレームワーク ノイズの付加(Forward) 時刻 t における画像 x_t は前時刻 の画像にノイズを加えて定義 q(x_t |

    x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I) β_t:ノイズ量のスケジュール 損失関数(学習目的) モデルは「含まれるノイズ量」を予測 L = E[ || ε - ε_θ(x_t, t) ||² ] ε:実際のノイズ ε_θ:モデルの予測ノイズ Denoising Diffusion Probabilistic Models (DDPM) 2020年にHo et al.により提案。ガウスノイズの付加・除去を確率過程として定式化し、高品質な画像生成 を実現。非平衡熱力学の概念を応用した画期的なモデルであり、現在のStable DiffusionやDALL-Eの基礎と なった。
  4. U-Netアーキテクチャ Encoder 画像の特徴を圧縮し 低次元の抽象的な情報を抽出 Skip Connections エンコーダの細かい情報を デコーダに直接渡す 質感やエッジの復元を支援 Time

    Embedding 「今が何ステップ目か」を モデルに教え、ノイズ除去の 強度を調整 U-Netは畳み込みニューラルネットワーク(CNN)の一種。対称的なエンコーダ・デコーダ構造により、画像の構 造を維持しやすい。
  5. 潜在拡散モデル(LDM) 元画像 (512×512) VAE Encoder 潜在空間 (64×64) 拡散プロセス VAE Decoder

    生成画像 (512×512) 計算量の大幅削減 潜在空間で処理することで、ピクセ ル空間の1/64の計算量 家庭用PCで実行可能 Stable Diffusionの登場により、個人 でも高品質な画像生成が可能に 高品質を維持 VAEにより画像の本質的な情報を保 持しつつ圧縮
  6. フローモデルの仕組み 「粘土細工を少しずつ変形させて形を作る」イメージ 正規化フロー(Normalizing Flows) • 可逆な変換関数を何度も適用 z₀ → f₁ →

    f₂ → ... → fₖ → x • z₀: 単純なノイズ • x: 生成されたデータ • 1対1の対応関係を維持 • 逆変換も可能 メリット • 対数尤度を正確に計算可能 • 理論上は1ステップで生成可能 デメリット • 各層が「可逆」である制約が厳しい • モデル設計が難しく、メモリ消費大
  7. 拡散モデル vs フローモデル 特徴 拡散モデル フローモデル 生成プロセス 段階的(複数ステップのデノイズ) 1ステップ(変換関数の適用) 数学的基盤

    非平衡熱力学、スコア推定 変数変換、ヤコビ行列式 可逆性 近似的な逆変換 厳密な可逆性 生成品質 極めて高い 高いが、拡散モデルに劣る傾向 代表例 Stable Diffusion, DALL-E 3 RealNVP, Glow 現在は「拡散モデル vs フローモデル」ではなく、両者の長所を統合した技術が主流に
  8. フロー・マッチングの核心 ベクトル場の学習 フロー・マッチングは「速度(ベクトル場)」を学 習します。 • 1. 確率経路を p_t と定義 •

    2. ベクトル場 v_t がガイドマップ • 3. NNが速度ベクトルを直接予測 Rectified Flow(整流フロー): x_t = (1-t)x₀ + t·x₁ 理想速度 = x₁ - x₀ (定数!) 1〜4 ステップで高品質生成 拡散モデル 曲がった軌道 → 多くのステップ → 誤差が蓄積 フロー・マッチング 直線的な経路 → 少ないステップ → 高精度 損失関数: L = E[ || v_θ(x_t, t) - (x₁ - x₀) ||² ]
  9. 拡散 vs フロー・マッチング 特徴 拡散モデル フロー・マッチング 軌道の形状 確率的・曲進的 決定論的・直線的 数学的基盤

    確率微分方程式 (SDE) 常微分方程式 (ODE) 学習対象 スコア(対数密度の勾配) ベクトル場(移動速度) 生成速度 多くのステップが必要 1〜4ステップで可能 精度 高いが、サンプリング誤差が出やすい 直線的で誤差が蓄積しにくい
  10. なぜU-NetからTransformerへ? U-Netの限界 • スケーラビリティの限界 → モデルを大きくしても性能向上が不明確 • 長距離依存関係が苦手 → CNNベースのため画像の遠い部分の関係性を捉

    えにくい DiTの強み • スケーリング則が明確 → 大きくすればするほど高品質 • Self-Attentionで全体を把握 → 長距離依存関係を自然に学習 DiTのパイプライン 画像 → パッチ化 → Transformerブロック(Self-Attention + AdaLN) → 条件付け(時刻t, テキスト) → 出力
  11. DiTの仕組み 1 パッチ化 潜在空間の画像を小さなパッチに分割。例: 32×32 → 4×4パッチ = 64トークン。Transformerが「単語」を 処理するように画像を処理する。

    2 Transformerブロック Self-Attentionにより「どのパッチがどのパッチと関係しているか」を計算。全パッチ間の関係性を同時 に把握する。 3 AdaLN-Zero条件付け 時刻t、クラスラベル、テキスト等の情報をAdaptive Layer Normで動的に注入。レイヤー正規化のパラメ ータを条件に応じて変化させる。
  12. DiTの3大メリット 68 45 23 10 0 10 20 30 40

    50 60 70 80 DiT-S DiT-M DiT-L DiT-XL スケーリング効果 (FID) スケーリング則 パラメータ・計算量を増やすほど品質が向上 する明確な法則 学習の効率化 標準化された構造により最新GPU/TPUでの高速 化が容易 汎用性 画像から動画へ。パッチの切り方を変えるだ けで3Dデータにも対応 採用モデル: Stable Diffusion 3 | Flux.1 | OpenAI Sora | Drifting Models
  13. MM-DiTの3大利点 「2つの脳と1つのテーブル」:画像とテキストを独立処理し、Joint Attentionで統合 プロンプト追従性 Joint Attentionにより画像とテキスト が直接対話。複雑な指示も正確に反 映できる。 学習の安定性 画像・テキストの独立した重みが干

    渉を防止。マルチモーダル学習が安 定する。 スケーラビリティ テキストエンコーダの巨大化にも対 応。T5-XXLなどの大規模言語モデル との統合が容易。 採用例: Stable Diffusion 3 (SD3) — U-Netを完全に廃止し、MM-DiTベースのアーキテクチャを採用
  14. Driftingの核心メカニズム 核心:「推論を高速化するためにモデルを蒸留する」のではなく、「最初から1ステップで終わ るように分布を進化させる」 プッシュフォワード NNの出力分布 q_θ を「漂流」さ せてデータ分布に適合。学習のイ テレーション =

    分布の進化。 ドリフト場 生成分布をデータ分布に近づける 「ガイド」ベクトル場 V。p = q で V = 0(平衡状態)になる設計 。 引力と斥力 データからの「引力」+ 生成分布 からの「斥力」でバランスを維持 。モード崩壊を防止。
  15. Driftingの実装 Tokenizer SD互換のVAEを使用 潜在空間(64×64)で生成 アーキテクチャ DiT類似構造 SwiGLU / ROPE /

    RMSNorm QK-Norm採用 特徴抽出器 カスタムlatent-MAE (ResNetベース) 学習時のみ使用 CFG統合 学習時にCFGを組み込み 推論時も1ステップ維持 スケールをランダムサンプリング ImageNet 256×256: 1ステップ生成で FID 1.54 を達成
  16. 技術の進化タイムライン 2020 DDPM 拡散モデルの 基礎確立 2022 LDM/SD 潜在拡散モデル 家庭PCで生成 2023

    DiT Transformer の導入 2024 Flow Matching 直線的経路で 高速化 2025 Drifting 1ステップ 生成の実現 トレンド:より少ないステップで、より高品質な生成を実現する方向へ進化 「いかに巨大なモデルに、いかに直線的な経路を学習させるか」が現在のテーマ。その基盤がDiT + Flow Matching。