总结来说, Stable Diffusion是一款图像生产+调控的集合工具,通过调用各类模型和插件工具,可以实现更加精准的商业出图 ,加上数据安全性和可扩展性强等优点,Stable Diffusion非常适合AI绘图进阶用户和专业团队使用。 而对于具备极客精神的AI绘画爱好者来说,使用Stable Diffusion过程中可以学到很多关于模型技术的知识, 理解了...
究其原因,第一,Stable Diffusion通过压缩图像尺寸显著提升了扩散模型的运行效率,使得每个用户能在自己的商业级显卡上运行模型;第二,有许多基于Stable Diffusion的应用,比如Stable Diffusion自带的文生图、图像补全,以及ControlNet、LoRA、DreamBooth等插件式应用;第三,得益于前两点,Stable Diffusion已经形成了一个庞大的用户...
Stable Diffusion中的U-Net,在Encoder-Decoder结构的基础上,增加了Time Embedding模块,Spatial Transformer(Cross Attention)模块和self-attention模块。 Time Embedding模块 首先,什么是Time Embedding呢? Time Embedding(时间嵌入)是一种在时间序列数据中用于表示时间信息的技术。时间序列数据是指按照时间顺序排列的数据,例如...
这次我们给大家带来了从RTX 2060 Super到RTX 4090一共17款显卡的Stable Diffusion AI绘图性能测试。由于目前SDXL还不够成熟,模型数量和插件支持相对也较少,且对硬件配置的要求进一步提升,所以暂时依旧使用SD1.5进行测试。测试环境方面,我们使用国内作者秋葉最新版整合包,模拟了3种应用场景进行测试。测试环境:Stable...
这是我关于StableDiffusion学习系列的第三篇文章,如果之前的文章你还没有阅读,强烈推荐大家翻看前篇内容。在本文中,我们将学习构成StableDiffusion的第二个基础组件变分自编码器VAE,并针该组件的功能进行详细的阐述。 闲话少说,我们直接开始吧! 2. 概览 通常来说一个自编码器autoencoder包含两部分: ...
Stable Diffusion 里采用的 UNetModel 模型,采用 Encoder-Decoder 结构来预估噪声,网络结构如图 5: 图5 Unet网络结构示意图 模型输入包括 3 个部分,(1) 图像表示,用隐空间向量输入的维度为[B, Z, H/8, W/8];(2) timesteps 值,维度为[B, ];(3) 文本向量表示 context,维度为[B, K, E]。其中[B,...
在Stable Diffusion v1里,VAE files用于提升眼睛与脸的准确度。它们实际上是我们前面提到的autoencoder中的decoder。通过进一步的fine-tune decoder,模型可以生成出更多的细节。 回到顶部 5. Conditioning(条件) 到目前为止,我们还没介绍文本是如何影响图片生成的。如果没有文本prompt的影响,SD模型也不会是一个text-to...
Stable Diffusion 里采用的 UNetModel 模型,采用 Encoder-Decoder 结构来预估噪声,网络结构如图 5: 图5 Unet网络结构示意图 模型输入包括 3 个部分,(1) 图像表示,用隐空间向量输入的维度为[B, Z, H/8, W/8];(2) timesteps 值,维度为[B, ];(3) 文本向量表示 context,维度为[B, K, E]。其中[B,...
模型文件即checkpoint是已经包含了vae(用于从隐空间解码,详见第一篇)相关参数,但是stable diffusion官方和novelai泄露出来的文件都有额外的vae,因为这些vae针对面部或者其他一些细节做了改良,所以加载vae文件实际是替换了模型文件中原有的与vae相关的参数。 当然由此引发的问题就是,如果你的模型原本的效果就很好,盲目加载...
Stable Diffusion 里采用的 UNetModel 模型,采用 Encoder-Decoder 结构来预估噪声,网络结构如图 5: 图5 Unet网络结构示意图 模型输入包括 3 个部分,(1) 图像表示,用隐空间向量输入的维度为[B, Z, H/8, W/8];(2) timesteps 值,维度为[B, ];(3) 文本向量表示 context,维度为[B, K, E]。其中[B,...