Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LlamaGen: LlamaのNext-Token予測を使った画像生成 / Autoregr...

hiroga
December 03, 2024
280

LlamaGen: LlamaのNext-Token予測を使った画像生成 / Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

hiroga

December 03, 2024
Tweet

More Decks by hiroga

Transcript

  1. はじめに 拡散モデルは高品質な画像を生成できますが、計算コストが高いという課題があります。一方で、自己回帰モ デルは高速ですが、高解像度画像には不向きです。 LlamaGen は、LLM であるLlama を自己回帰型画像生成に応用した研究です。画像をトークン化し、Llama で予 測生成することで高品質を実現します。 近年の画像生成AI

    は高品質な一方、大規模言語モデルとの統合は限定的です。ChatGPT の画像生成機能は、実 際にはDALL-E を呼び出しているに過ぎません。これは、画像生成AI と大規模言語モデルのアーキテクチャが根 本的に異なることに起因します。
  2. 自己紹介 名前: 小笠原寛明 Bluesky: @hiroga.bsky.social Twitter: @xhiroga 所属: なし(2025 年より社会人学生として大

    学院進学予定) 2025 年3 月までヒマなので、共同研究などの お誘いがあればぜひご連絡下さい!
  3. 先行研究 PixelCNN (2016): マスク畳み込みで自己回帰を実現 ImageGPT (2020): Transformer を用いた自己回帰型画像生成。画像を低解像度化し、ピクセルをトークン として扱う。 ViT

    (2020): 画像をパッチに分割し、各パッチをトークンとしてTransformer エンコーダーに入力。 DALL-E (2021): Transformer を用いた画像生成。VAE でトークン化。 VQGAN (2021): ベクトル量子化とTransformer を用いた高解像度画像生成。 DiT (2023): Transformer を用いた拡散モデル。 自己回帰モデルによる画像生成は、拡散モデル以前から存在していました。
  4. LlamaGen のアーキテクチャ 1. Image Tokenizer: 画像をトークン列に変換 (VQGAN ベース) 2. Llama:

    トークン列から自己回帰的に画像生成 Image Tokenizer コードブックを参照 画像 🏞️ テキスト・クラス 💬 エンコーダー 量子化器 グリッドトークン 🟦 🟩 ⬜️ 🟩 ... デコーダー Llama 🦙 出力画像 🏞️ LlamaGen は、2 つの主要モジュールから構成されています。
  5. LlamaGen vs. ViT 特徴 LlamaGen ViT タスク 画像生成 画像分類 アーキテクチャ

    Transformer Decoder Transformer Encoder トークン化対象 画像パッチ 画像パッチ トークン化方法 ベクトル量子化 パッチ埋込み どちらもTransformer を利用しますが、その役割は大きく異なります。ViT は画像認識のためのモデルですが、 LlamaGen は画像生成のためのモデルです。
  6. Image Tokenizer 🔎 エンコーダー: 画像を低次元特徴マップに変換 量子化器: 特徴マップをコードブック中のベクトルに置き換え ( トークン化) デコーダー:

    トークン列から画像を再構成 Image Tokenizer は、高解像度画像をトークン列に変換する重要なモジュールです。Transformer の計算コスト を抑える役割を担います。
  7. ベクトル量子化 (図は『ソフテックだより』 より引用) 1. ソフテックだより 第165号(2012 年7 月4 日発行)技術レポート「ベクトル量子化を用 いた情報圧縮」

    https://www.softech.co.jp/mm_120704_pc.htm ↩︎ ベクトル量子化は、連続ベクトル空間を離散コ ードブックで表現する手法です。VQ-VAE 等で 利用され、高次元データを効率的に圧縮しま す。 [1]
  8. Image Tokenizer パラメータ ダウンサンプル比: 画像の解像度を下げる比率 LlamaGen の値: 8, 16 コードブックの語彙数:

    トークンの種類 LlamaGen の値: 4096, 32768 256x256 画像をダウンサンプル比8 でトークン化 → 1024 トークン 参考: Llama3 のボキャブラリー(128K トークン)
  9. 知覚損失: 具体的には、AlexNet (画像分類モデル)の内部のべクトルの類似度で計測します。 1. R. Zhang, P. Isola, A. A.

    Efros, E. Shechtman, and O. Wang, “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric,” Apr. 10, 2018, arXiv: arXiv:1801.03924. doi: 10.48550/arXiv.1801.03924. ↩︎ L ​ P は、入力画像 と生成画像 の間の知覚的損失です。LPIPS (Learned Perceptual Image Patch Similarity) を使用します。LPIPS は、人間の知覚に基づいて画像の類似性を評価する指標です。 L ​ (x, ) P x x x [1]
  10. Next-Token 予測による画像生成 PixelCNN やImageGPT も同様の手法ですが、LlamaGen はLLM を用いてスケーラビリティと生成品質の向上を 実現しています。 Image Tokenizer

    で生成されたトークン列をLlama に入力し、自己回帰的に次のトークンを予測。文章生成と同 様のアプローチ。
  11. CFG (Classifier-Free Guidance) テキスト条件付けでは、T5 でテキストを埋め込みに変換し、画像トークン埋め込みと連結して入力に使用。 : 最終的なlogit 、 : 無条件logit

    、 : 条件付きlogit 、 : CFG スケール CFG 解説記事 LlamaGen はStable Diffusion 同様、CFG を用いて条件付き画像生成を実現。 lg = lu + s(lc − lu) lg lu lc s
  12. 評価指標 IS (Inception Score): 生成画像の品質と多様性 FID (Fréchet Inception Distance): 生成画像と実画像の分布の距離

    rFID (Reconstruction FID): Image Tokenizer の性能 sFID: FID の改良版 Precision/Recall: 生成画像の多様性とプロンプト適合性 PSNR/SSIM: 画質の客観的評価 次の評価指標のうち、特に重要なIS, FID, Precision/Recall について詳しく述べます。
  13. IS (Inception Score) 評価対象の画像生成モデルでまとまった量の画像を生成し、それらの画像について次の確率分布を測ります。 1. ある画像の分類結果の分布。特定のラベルに集中しているほど良い 2. 画像全体の分類結果の分布。全てのラベルに広がっているほど良い 2 つの確率分布を算出したら、それらの分布の違いを測ります。具体的には、KDL

    (カルバック・ライブラ ー・ダイバージェンス)を計算します。そして、すべての画像におけるKLD の平均を取り、そのexp を取った値 がインセプションスコアとなります。 値は高いほど良く、GAN で約220 、潜在拡散モデルで約250 、LlamaGen では約310 となっています。 1. T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved Techniques for Training GANs,” Jun. 10, 2016, arXiv: arXiv:1606.03498. doi: 10.48550/arXiv.1606.03498. ↩︎ [1] 画像のクラス分類モデルであるInceptionNet を用いて、画像生成モデルの品質を測る手法です。
  14. FID (Fréchet inception distance) 具体的には、次の2 つの項を計算します。 1. 2 つの分布の平均べクトルの間の距離 2.

    2 つの分布の分散共分散行列の差異のトレース(詳細は計算式を参照してください) 値は小さいほど良く、BigGAN で約7, 最新の評価にはDiffusion で約2 となっています。 計算にあたってはベンチマーク対象が必要で、LlamaGen ではImageNet でベンチマークを行っています。 1. M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium,” Jan. 12, 2018, arXiv: arXiv:1706.08500. doi: 10.48550/arXiv.1706.08500. ↩︎ [1] 日本語にするとフレチェインセプション距離でしょうか。2 つの分布の違いを、中心の違いと散らばり方の違 いの2 つの観点から測り、足し合わせた値です。
  15. もっとスケールしないのか? パラメータ数は次の通り… B: 111M, L: 343M, XL: 775M, XXL: 1.4B,

    3B 1 サイズごとにおよそ倍になっている にも関わらずスコアの改善が低調に見えるのは、学習に用いられた画像(ImageNet: 100 万枚)の少なさに 由来するという主張 参考までに、Stable Diffusion などで学習に用いられているデータセットはLAION-2B (20 億枚)など
  16. 従来の画像生成モデルとの比較 特に注目したいモデルは次の通り BigGAN やVQGAN など、2021 年以前のモデルには大きな差を付けて勝っている LDM (潜在拡散モデル, 応用にStable Diffusion

    など)にも勝っている 画像生成をLlama で扱うにあたってトークンへと離散化を行っているが、それはもはやボトルネックではな いという主張