Stable Diffusion原来的名字叫“Latent Diffusion Model”(LDM),很明显就是扩散过程发生隐空间中(latent space),其实就是对图片做了压缩,这也是Stable Diffusion比Diffusion速度快的原因。 自编码器(Autoencoder) Stable Diffusion会先训练一个自编码器,来学习将图像压缩成低维表示。 通过训练好的编码器 E ,可以将原始...
这个超分过程中, 模型借助了StableDiffusion的先验知识,即从纯噪声(zT)中逐步生成细节的能力,因而有较好的超分效果。 time-aware encoder StableSR算法设计了一个time-aware encoder, time-aware encoder 的结构和Denoising U-Net的结构类似,即time-aware 的含义是encoder的输入除了LR的latent特征外,还有时间t, time...
decoder我们放在第二阶段采样阶段说,我们所使用的stablediffusion webui画图通常是在采样阶段,至于训练阶段,目前我们大多数普通人是根本完成不了的,它所需要训练时间应该可以用GPUyear来计量,(单V100的GPU要一年时间),如果你有100张卡,应该...
小结一下上面的内容,构成 Stable Diffusion 的三个主要组件 CLIPText 用于文本编码(Text Encoder)、U-Net 用于处理潜空间中的图像信息(Diffusion的实际运行过程)、AutoEncoder Decoder 自动编码器使用处理后的信息解码绘制出最终图像。 三个主要组件 CLIPText、U-Net、AutoEncoder Decoder 要继续往下进一步解构,我们首先...
简单总结一下,Stable Diffusion的整体流程就是:先用autoencoder学习图像的隐空间表示,随后在隐空间中用...
在训练autoencoder过程中,除了采用L1重建损失外,还增加了感知损失(perceptual loss,即LPIPS,具体见论文The Unreasonable Effectiveness of Deep Features as a Perceptual Metric)以及基于patch的对抗训练。辅助loss主要是为了确保重建的图像局部真实性以及避免模糊,具体损失函数见...
在Stable Diffusion的U-Net中添加了交叉注意层对文本嵌入的输出进行调节。交叉注意层被添加到U-Net的编码器和解码器ResNet块之间。 Text-Encoder 文本编码器将把输入文字提示转换为U-Net可以理解的嵌入空间,这是一个简单的基于transformer的编码器,它将标记序列映射到潜在文本嵌入序列。从这里可以看到使用良好的文字提示...
Stable Diffusion 里采用的 UNetModel 模型,采用 Encoder-Decoder 结构来预估噪声,网络结构如图 5: 图5 Unet网络结构示意图 模型输入包括 3 个部分,(1) 图像表示,用隐空间向量输入的维度为[B, Z, H/8, W/8];(2) timesteps 值,维度为[B, ];(3) 文本向量表示 context,维度为[B, K, E]。其中[B,...
Stable Diffusion 里采用的 UNetModel 模型,采用 Encoder-Decoder 结构来预估噪声,网络结构如图 5: 图5 Unet网络结构示意图 模型输入包括 3 个部分,(1) 图像表示,用隐空间向量输入的维度为[B, Z, H/8, W/8];(2) timesteps 值,维度为[B, ];(3) 文本向量表示 context,维度为[B, K, E]。其中[B,...
Stable diffusion论文 早期的diffusion是直接生成图片,训练和推理都会很慢;SD采用了laten diffusion解决这个问题,整体分成三步: Image encoder:输入图片,输出图片的latent representations diffusion model:输入噪音,通过DDPM/DDIM等方法不断采样,生成latent representation,针对不同任务使用不同模态的guidence: 文生图:使用CLIP...