1. 由于Diffusion在反向传播时,输入输出都是原始size的图片,这样在迭代过程中会十分耗时,因此增加了VAE的encode和decode,目的是将原始图片先进行压缩。其中VAE是预训练好的。2. 先经过VAE emcode,将原始图片Xt压缩为latent空间图片Zt,仍然进行加噪训练,其中U-Net的结构有些变化3. U-Net的输入相比于Diffusion Model...