推論時のViT-VQGANの画像トークンをSeq2Seqに置き換えた • データセット:LAION-400M + FIT400M + JFT-4B(44億枚くらい) • 評価用プロンプト(Parti Prompt, P2)を準備した - 自己回帰モデル - ViT-VQGAN - 超解像モデル - 超巨大モデル ◼ Imagen[3] - カスケード拡散モデル 超解像モデル - CFG - T5 - Efficient U-Net - Dynamic Thresholding - DrawBenchベンチマーク ◼ DALL-E2 [2] unCLIP(CLIP埋め込みの逆変換)を行う - 自己回帰モデル or 拡散モデル - CFG - CLIP [1] Rombach+, “High-Resolution Image Synthesis with Latent Diffusion Models”, CVPR, 2022 (arXiv:2112.10752) [2] Ramesh+, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, arXiv:2204.06125 [3] Saharia+, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, arXiv:2205.11487 [4] Yu+, “Scaling Autoregressive Models for Content-Rich Text-to-Image Generation”, arXiv:2206.10789 多段階(カスケード)に生成 ◼ Stable Diffusion (LDM) [1] - VAE - 拡散モデル - CLIP Parti Promptの構成 1600プロンプト