该类有一个model属性,为DiffusionWrapper实例对象,完成条件噪声预测。DiffusionWrapper类有两个比较重要的属性,一个是diffusion_model,为一个UNetModel的实例,本质上就是一个 UNet 模型,是核心模型,完成条件噪声预测,conditioning_keys属性指示条件怎么指导图像生成,如可以是交叉注意力形式(crossattn),或者是拼接的形式(con...
LDM通过在UNet 模型中使用交叉注意机制(cross-attention),将Diffusion Models转变为更灵活的条件图像生成器。本来将使用text-to-image来举例。 这里引入一个新的encoder\tau _\theta(这个是用于条件编码的encoder,和上面提到的用于降维的是不同的)来将条件y映射到\tau _\theta(y ) \in \mathbb{R} ^{M \times...
一个备注:Hypernetwork是一种fine-tune Stable Diffusion模型的技术,它会操纵cross-attention网络来注入风格。LoRA模型修改cross-attention模块的权重来修改风格。可以看到,单独修改这个模块即可fine-tune一个SD模型的风格,说明了这个模块有多重要。 5.6. 其他条件 文本提示词并非SD模型可以参考的条件。Text prompt与depth ...
由于KL-reg的权重系数非常小,实际得到latent的标准差还是比较大的,latent diffusion论文中提出了一种rescaling方法:首先计算出第一个batch数据中的latent的标准差,然后采用的系数来rescale latent,这样就尽量保证latent的标准差接近1(防止扩散过程的SNR较高,影响生成效果,具体...
在这篇论文中,StableDiffusion可用于实现图像编辑的本质被挖掘,解释证明了基于StableDiffusion编辑的算法本质,并基于此设计了新的图像编辑算法,大幅度提升了图像编辑的效率。 论文: Bingyan Liu, Chengyu Wang, Tingfeng Cao, Kui Jia, Jun Huang. Towards Understanding Cross and Self-Attention in Stable Diffusion ...
条件机制通过crossattention实现多模态训练,增强图片生成的多样性。这一机制引入了文本等控制信息,实现图片生成的条件化。模型训练与权重:Stable Diffusion模型在LAION5B的一个子集上进行了训练,专门用于文图生成。官方提供了相应的权重供用户使用,使得模型能够在消费级GPU上快速生成图片。实验效果与应用:...
总的来说,如果说Stable Diffusion是“优化噪声的艺术”,那么U-Net将是这个“艺术”的核心主导者。 【二】U-Net在AIGC时代中的核心结构与细节 Stable Diffusion中的U-Net,在Encoder-Decoder结构的基础上,增加了Time Embedding模块,Spatial Transformer(Cross Attention)模块和self-attention模块。
何为超网络(扩散模型中)?Hypernetwork是一个单独的小型神经网络模型,该模型用于输出可以插入到原始Diffusion模型的中间层。 让我们回到前篇,我们将语义信息与图片产生联系时,引入了crossattention(注意力交叉)机制,而我们的超网络则劫持了这部分来插入样式,最终达成对生成结果的影响。(LoRA模型同样也修改了这部分但是方式...
ControlNet在大型预训练扩散模型(Stable Diffusion)的基础上实现了更多的输入条件,如边缘映射、分割映射和关键点等图片加上文字作为Prompt生成新的图片,同时也是stable-diffusion-webui的重要插件。ControlNet因为使用了冻结参数的Stable Diffusion和零卷积,使得即使使用个人电脑在小的数据集上fine-tuning效果也不会下降,从而...
Stable Diffusion模型的主体结构如下图所示,主要包括三个模型: AutoEncoder:Encoder将图像压缩到Latent空间,而Decoder将Latent解码为图像;CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition;UNet:扩散模型的主体,用来实现文本引导下的Latent生成。