more GPU memory, 34% more time in each training iteration (as tested on a single Nvidia A 100 PCIE40G) Small-Scale Training DefaultでControlNetを接続している”SD Middle Block”と”SD Decoder Block 1,2,3,4”の うち、 ”SD Decoder Block 1,2,3,4”の接続を外す。 RTX 2070TI laptop GPUで実⾏でき、 1.6倍速く学習可能 Large-Scale Training 8台以上のNvidia A100 80Gと100万以上の学習データが利⽤可能なら、Overfittingの リスクは低いので、 最初に5万ステップ以上でControlNetを学習しその後Stable Diffusionのすべての重み のlockを外し、全モデルを通してのjointly trainingを⾏う。 Improved Training
of strong data augmentationsを使ってhuman scribbleを作成した。 Internetから取得したデータから50万のscribble-image caption pairsを⽣成。 Canny modelのcheckpointを始点にしてNvidia A100 80Gで150 GPU-hoursで学習。 (random thresholds, randomly masking out a random percentage of scribbles, random morphological transformations, and random non-maximum suppression)