Stable Diffusion XL网络结构-超详细原创

强烈推荐先看本人的这篇

1 Unet

1.1 详细整体结构

1.2 缩小版整体结构

以生成图像1024x1024为例，与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D相比，SDXL只有2个，但SDXL的CrossAttnDownBlock2D模块有了更多的Transformer模块，且只进行了两次下采样，具体的往下看

1.2.1 DownBlock2D

1.2.1.1 ResBolck2D

和SD1.5不一样的是，多了time_id这个输入，表示origin_size, target_size,以及裁剪坐标，比如图中的time_id＝[[1024, 1024, 0, 0, 1024, 1024],[1024, 1024, 0, 0, 1024, 1024]]

有一半是负向提示词，以[1024, 1024, 0, 0, 1024, 1024],为例，两个[1024, 1024]表示origin_size, target_size，[0, 0]是裁剪坐标，这是SDXL在训练的时候用了一些trick,把原始输入图像和目标图像的大小，以及裁剪坐标也作为条件参与训练