Code URL:https://github.com/CompVis/latent-diffusion TL;DR 2021 年 runway 和慕尼黑路德维希·马克西米利安大学出品的文章,开源社区大名顶顶的文生图模型 stable diffusion 背后的论文。提出 Latent Diffusion Models,基于 latent space 进行 diffusion,降低计算量需求。 Introduction 背景 图像生成对计算需求较大,当前...
目前主流的做法,文本生成是基于 自回归模型(Autoregressive models),而图像生成是基于扩散模型(Diffusion models)。但其实很早就已经有基于自回归的文生图模型了,比如OpenAI的第一代… 小小将 文生图模型Flux强在哪里? 最近比较火的文生图模型非Flux莫属了,目前已经占据huggingface模型榜首,后面大概率会取代SD成为开源文生...
Stable Diffusion Web Ui安装过程中会默认下载Stable Diffusion v1.5模型,名称为v1-5-pruned-emaonly。如果想用最新的Stable Diffusion v2.1,可以从Hugging Face上下载官方版本stabilityai/stable-diffusion-2-1。下载后将模型复制到models目录下的Stable-diffusion目录即可。完成后点击页面左上角的刷新按钮,即可在模型下...
由于KL-reg的权重系数非常小,实际得到latent的标准差还是比较大的,latent diffusion论文中提出了一种rescaling方法:首先计算出第一个batch数据中的latent的标准差,然后采用的系数来rescale latent,这样就尽量保证latent的标准差接近1(防止扩散过程的SNR较高,影响生成效果,具体...
1. Stable Diffusion能做什么 直白地说,SD是一个text-to-image模型,通过给定text prompt(文本提示词),它可以返回一个匹配文本的图片。 回到顶部 2. Diffusion 模型 Stable Diffusion属于深度学习模型里的一个类别,称为diffusion models(扩散模型)。这类模型时生成式模型,也就是说它们用于生成新的数据,这类新数据类...
除了这些,还有一项非常具有启发性的工作《Label-Efficient Semantic Segmentation with Diffusion Models》,揭示了扩散模型的潜在空间蕴藏着的丰富语义信息。这或许将启发了后续一系列基于使用扩散模型作为backbone以及利用注意力机制的图像编辑技术以及扩散模型在感知领域的应用。在这个时间节点,扩散模型逐渐走入人们的视野,各...
1.2. Stable Diffusion原理解析 Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。 它包含三个模块:感知压缩、扩散模型和条件机制。 (1) 图像感知压缩(Perceptual Image Compression) 图像感知压缩通过VAE自编码模型对原图进行处理,忽略掉原图中的高频细节信息,只...
除了这些,还有一项非常具有启发性的工作《Label-Efficient Semantic Segmentation with Diffusion Models》,揭示了扩散模型的潜在空间蕴藏着的丰富语义信息。这或许将启发了后续一系列基于使用扩散模型作为backbone以及利用注意力机制的图像编辑技术以及扩散模型在感知领域的应用。
Classifier-Free Diffusion Guidance 本篇可以认为是对《Diffusion Models Beat GANs on Image Synthesis》的改进,讨论了如何在不用额外的classifier同时做diffusion 本文也是有一个原始的unconditional diffusion model和一个conditional diffusion model构成。 结构:两个diffusion model的结构是一样的,只不过unconditional diffus...
辅助loss主要是为了确保重建的图像局部真实性以及避免模糊,具体损失函数见latent diffusion的loss部分。同时为了防止得到的latent的标准差过大,采用了两种正则化方法:第一种是KL-reg,类似VAE增加一个latent和标准正态分布的KL loss,不过这里为了保证重建效果,采用比较小的权重(~10e-6);第二种是VQ-reg,引入一个VQ ...