stable diffusion系列模型基本由一个text encoder、一个denoising model和一个image decoder组成。Stable Diffusion v2和Stable Diffusion v1在网络结构上最大的区别是它的text encoder发生了变化。v1用的是OpenAI闭源的Clip,v2用的是OpenClip,其他差别不大,因此,本文直接使用stable diffusion v2作为示例。 stable ...
stable diffusion model v1&v2 对比 v1和v2的模型结构都一样,只是一些细节和性能变了,最主要的变化就是text encoder。v1使用的text encoder是openAI的CLIP模型,但是CLIP模型训练数据集没有公开;v2用的是openCLIP,基于公开数据集LAION-5B进行训练的。至于为什么要讨论text encoder变了,是因为它是v1和v2差异的根源。
由于KL-reg的权重系数非常小,实际得到latent的标准差还是比较大的,latent diffusion论文中提出了一种rescaling方法:首先计算出第一个batch数据中的latent的标准差,然后采用的系数来rescale latent,这样就尽量保证latent的标准差接近1(防止扩散过程的SNR较高,影响生成效果,具体见latent diffusion论文的D1部分讨论),然后扩散...
Stable Diffusion v1 使用了经典的变分自编码器(Variational Autoencoder,VAE)作为基础模型,而Stable Diffusion v2 则采用了更先进的生成对抗网络(Generative Adversarial Networks,GANs)结构。 在训练方法上,Stable Diffusion v1 采用了逐步引入噪声的方式进行训练,而Stable Diffusion v2 引入了更复杂的噪声预测器和交叉注...
1. Stable Diffusion能做什么 直白地说,SD是一个text-to-image模型,通过给定text prompt(文本提示词),它可以返回一个匹配文本的图片。 回到顶部 2. Diffusion 模型 Stable Diffusion属于深度学习模型里的一个类别,称为diffusion models(扩散模型)。这类模型时生成式模型,也就是说它们用于生成新的数据,这类新数据类...
1、Stable Diffusion Stable Diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。 你需要给出一个描述图片的提示,例如:姜饼屋,西洋镜,焦点,白色背景,吐司,脆麦片;生成图片如下: ...
项目地址:https://github.com/Stability-AI/stablediffusion 可以说,这波更新速度够快的,就像网友说的,我从未见过任何技术发展如此之快。V1 还没整透彻,V2 就来了。V1亮相之初,在Github 排行榜,Stable Diffusion 为所有软件中攀升至 10K star 最快的其中之一,在不到两个月的时间内飙升至 33K star。按照...
今日,Stability AI 官方宣布,那个爆红 AI 圈的Stable Diffusion来到了 2.0 版本(SD 2.0)!上线短短几个小时,点赞量已经很可观了。 项目地址:https://github.com/Stability-AI/stablediffusion 可以说,这波更新速度够快的,就像网友说的,我从未见过任何技术发展如此之快。V1 还没整透彻,V2 就来了。
在开始复现Stable Diffusion v2之前,我们需要先准备好相应的环境。这里我们推荐使用Anaconda来创建虚拟环境,这样可以方便地管理不同版本的依赖库。 安装Anaconda:你可以从Anaconda官网下载并安装Anaconda,选择适合你操作系统的版本。 创建虚拟环境:打开Anaconda Prompt,输入以下命令创建一个新的虚拟环境(命名为stable_diffusion...
可以说,这波更新速度够快的,就像网友说的,我从未见过任何技术发展如此之快。V1 还没整透彻,V2 就来了。 V1亮相之初,在Github 排行榜,Stable Diffusion 为所有软件中攀升至 10K star 最快的其中之一,在不到两个月的时间内飙升至 33K star。按照这个速度,2.0 版本很快就会赶上。