在上一篇文章中,介绍了有关Diffusion扩散模型的原理,如何将输入文本转换为最终的图片。但是由于Diffusion在反向扩散过程中需要把完整尺寸的图片输入到U-Net,使得速度非常慢,因此目前应用最广的并不是Diffusion,而实其改进版Stable Diffusion。有关Diffusion的内容可以参考下面的链接: 绝密伏击:十分钟读懂Diffusion:图解Diffus...
训练尺寸: Latent Diffusion 是在 256x256 分辨率数据集上训练,而 Stable Diffusion 是先在256x256分辨率上预训练,然后再在 512x512 分辨率上微调优化的,而现在 XL 版本则采用了 Laion-High-Resolution 训练集,一个规模为 170M,图像分辨率大于 1024 的高分辨率训练子集,用于超分辨率任务。 可以看出来,改进确实不...
Stable Diffusion是一种生成式模型,常常用于文生图,但其应用不仅限于文生图,还可以用于生成音频、视频等等不同种类的数据。 2. Stable Diffusion原理 Stable Diffusion大致框架 Stable Diffusion由三个部分组成: CLIP模型用于将文字编码成向量作为第二个部分的输入; Diffusion模型用于根据输入生成潜在空间中的图片特征; VAE...
让我们从训练阶段开始,可能你们发现少了VAEdecoder,这是因为我们训练过程是在潜空间完成,decoder我们放在第二阶段采样阶段说,我们所使用的stablediffusion webui画图通常是在采样阶段,至于训练阶段,目前我们大多数普通人是根本完成不了的,它所...
Stable Diffusion是一种用于图像生成的人工智能技术。它可以根据文本描述生成相应的图像。 Stable Diffusion 是基于 Transformer 语言模型的开源技术。它使用大型图像-文本数据集进行预训练,可以将图像与自然语言进行翻译,根据图像或文本描述生成新的图像。 Stable Diffusion 的主要特点有: ...
Stable Diffusion属于深度学习模型里的一个类别,称为diffusion models(扩散模型)。这类模型时生成式模型,也就是说它们用于生成新的数据,这类新数据类似于它们训练时的数据。对于SD来说,这类新数据便是图片。 为什么叫diffusion model?因为它的数学公式看起来非常像物理上的扩散现象。下面我们具体介绍它的原理。
这篇文章将介绍比较火的文生图模型Stable Diffusion(简称SD),Stable Diffusion不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有1B左右,大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说,Stable Diffusion的出现和开源对AIGC的火热和...
Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。简单的来说SD是可以通过提示词生成图片的应用。目前已经发布了V4版本,可以更好的稳定扩散。(这是通俗的介绍想要深入了解的可以去看Stable Diffusion原理解读https://zhuanlan.zhihu.com/p/583124756,这里面看不懂...
使用Stable Diffusion AI制作视频是一项新兴的技术,它为用户提供了两种主要的方法来创造独特的视觉内容。下面将详细介绍这两种方法: 从文本提示制作视频: 这种方法涉及到使用文本提示来指导AI生成视频内容。用户可以输入一系列描述性的关键词或者一个详细的场景描述,AI将根据这些提示生成相应的视频片段。例如,如果你输入“...