里面主要讲一下cross attention,其他都是一些维度的变换,卷积操作和各种归一化Group Norm,Layer norm, 利用cross attention将latent space(潜空间)的特征与另一模态序列(文本向量)的特征融合,并添加到diffusion model的逆向过程,通过Unet逆向...
然后它会使用这个信息引导反向扩散,使得最终生成的图片包含蓝色眼睛(cross-attention between 提示词与图片) 一个备注:Hypernetwork是一种fine-tune Stable Diffusion模型的技术,它会操纵cross-attention网络来注入风格。LoRA模型修改cross-attention模块的权重来修改风格。可以看到,单独修改这个模块即可fine-tune一个SD模型的...
LDM通过在UNet 模型中使用交叉注意机制(cross-attention),将Diffusion Models转变为更灵活的条件图像生成器。本来将使用text-to-image来举例。 这里引入一个新的encoder\tau _\theta(这个是用于条件编码的encoder,和上面提到的用于降维的是不同的)来将条件y映射到\tau _\theta(y ) \in \mathbb{R} ^{M \times...
一、Stable Diffusion 数学原理 1.1 Forward Diffusion(正向扩散过程) 1.2 Reverse Diffusion(反向扩散过程) 二、Stable Diffusion 模型架构 2.1 VAE 2.2 Clip 2.3 Unet with Cross Attention 2.4 Scheduler 三、 Stable Diffusion 模型训练与推断 3.1 模型训练 3.2 模型推断 使用几个短短的单词就能够创造绘画作品的魔法...
六、Stable Diffusion Cross-attention技术 Cross-attention 是通过提示词产生图片的核心技术。 文本转换器的输出,会被noise predictor在U-Net中使用到多次。 U-Net以一个叫做cross-attention机制的方式来使用它,cross-attention机制允许模型在不同的特征层次上关注相关的区域,从而提高生成结果的质量,这即是prompt适配图片...
Stable Diffusion背后的原理 Latent Diffusion Models(潜在扩散模型)的整体框架如下图所示。首先需要训练一个自编码模型,这样就可以利用编码器对图片进行压缩,然后在潜在表示空间上进行扩散操作,最后再用解码器恢复到原始像素空间。这种方法被称为感知压缩(Perceptual Compression)。个人认为这种将高维特征压缩到低维,...
以下是stable diffusion中潜在空间反向扩散的工作原理。 生成一个随机潜在空间矩阵。 噪声预测器预测潜在矩阵的噪声。 然后从潜在矩阵中减去预测的噪声。 根据特定的采样步数,重复2,3这两步。 VAE的解码器将潜在矩阵转换为最终图像。 什么是VAE文件? VAE文件是在Stable Diffusion v1中用于改进眼睛和脸部的生成效果。它...
一、Stable Diffusion核心基础内容 1、Stable Diffusion模型原理 生成式模型可谓是AI界的“制假大师”,能生成看似真实的新数据。其中,GAN和Stable Diffusion可以说是翘楚级的作品。这两类模型通过不同的技巧,可以捕捉训练数据的特征分布,然后生成类似风格的新样本。比如在计算机视觉领域,可以输出样子逼真的新图片;在自然...
条件机制通过crossattention实现多模态训练,增强图片生成的多样性。这一机制引入了文本等控制信息,实现图片生成的条件化。模型训练与权重:Stable Diffusion模型在LAION5B的一个子集上进行了训练,专门用于文图生成。官方提供了相应的权重供用户使用,使得模型能够在消费级GPU上快速生成图片。实验效果与应用:...