e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i , RGBA 画像: I i I 0 入力: アスペクト比 r C (キャンバス), r i (要素 e i ), 座標情報 x i = (l, t, r, b) … 以降で説明
= e 1 = e 2 = e 3 1. U-Net を含む SD v1.5 をベースに Attention 部分以外 freeze 2. タイムステップ t における latent data z i t (レイアウトをレンダリングしたものに対応) が U-Net へ ➜ テキストプロンプトで条件付するのではなく、ICP module の特徴を入力 I 0 画像ドメイン
= e 1 = e 2 = e 3 1. (1) 座標情報 x i にノイズを加えた x i t の埋め込み、 (2) レイアウト要素を埋め込んだ Vector Condition Processing (VCP) module を結合して特徴抽出 2. Transformer block からなる拡散モデルで座標情報に付与されたノイズを推定 I 0 ベクタードメイン