• Parti • Stable Diffusion v1.4 評価指標 • FID • CLIP Score • Human Evaluation 全体の流れ ① T5-XXLでテキストをエンコード ② 画像をVQGANでトークン化 ② 1 低解像度(256x256)=低解像度画像の復元を試みる ② 2 高解像度(512x512)=低解像度で復元されたトークンをもとに高解像度化 ③ VQGANでデコード T5-XXL VQGAN VQGAN ① ② 1 ② 2 参考: TPUv4チップを512コア使って1週間程度学習 VQGAN (Decoder) ③
双方向 ex. Transformer (original text) = “Thank you for inviting me to your party last week.” BERT-Style → 10% 90% [1] Raffel+, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, JMLR, 2020