DDPM出现后,OpenAI的人介入研究,发表了iDDPM,发现diffusion模型scale的很好(加大模型,加大数据集,表现明显提升),于是究极改进,终于在Diffusion-Beat-GANs这篇论文中在FID,IS这些分数上击败了当时比较好的GAN,并且提出了类别classifier-guidance来提高生成质量。后续有些工作把类别推广到text,image。但这类classifier-guidanc...
Diffusion是目前生成模型中研究的最大热点之一,所以想对此类模型进行更深入的学习。本文简单回顾一下DDPM,再介绍对其的一个改进DDIM。 1 DDPM简单回顾 DDPM[1]就是通过对数据不断加噪成为真实噪声,和从真实噪声不断去噪还原成原始数据的过程中,学习到去噪的过程,进而就能对真实噪声进行随机采样,还原(生成)成各式各样...
diffusion process 不过现在只是从噪声中生成图像,没有做到text-to-image(Stable Diffusion),不过这个其实也需要text和image这样的成对的ground truth,比如现在的stable diffusion采用的LAION数据集具有5.85B的图像及标签。 对于text-to-image,每个step的denoise model接收额外的text输入,即noise predicter接收一个额外的输...
Classifier-Guidance也叫“事后修改”方案,即给定了一个训练好的无条件Diffusion模型,再进行条件控制输出,最早出现在《Diffusion Models Beat GANs on Image Synthesis》中。作者主要对 p(xt−1∣xt,y) 进行了一些变化: (1.1)p(xt−1∣xt,y)=p(xt−1,xt,y)p(xt,y)=p(y∣xt−1,xt)p(xt−1∣...
在之前的文章中,我们曾经介绍过Diffusion的具体原理,但是讲的还是比较偏理论,为了让大家快速了解Diffusion原理,这篇文章我们通过图解的方式。 1. Diffusion文字生成图片——整体结构 1.1 整个生成过程 我们知道在使用 Diffusion 的时候,是通过文字生成图片,但是上一篇文章中讲的Diffusion模型输入只有随机高斯噪声和time step...
我有十计,可打开局面倒反天罡:用 Diffusion 来做图像理解(Generative Visual Question Answering),又...
当然,直接看论文会比较吃力,建议先读一些更友好的入门级教程,比如我写的Diffusion Model 详解,以及...
也因为采样是走直线,所以可以一步生成!原作者在知乎上也对其进行了详细介绍《[ICLR2023] 扩散生成模型新方法:极度简化,一步生成》,因此这里主要来讨论一些其它的问题。 一、简要说明 设轨迹簇为:(1.1)xt=φt(x0,xT)那么:(1.2)dxtdt=∂φt(x0,xT)∂t右边就用sθ(xt,t)来近似,损失函数则为:(1.3)...
我有十计,可打开局面倒反天罡:用 Diffusion 来做图像理解(Generative Visual Question Answering),又...
Diffusion分为两个步骤——扩散、逆扩散 扩散过程是对图像加入高斯噪声的过程(图中上半部分): 给定一张图像,然后构造T个时刻,每一个时刻对应一张图像,如图中t=0,对应我们给定的初始图像 然后,对这张图像加一个高斯噪声,得到t=1时刻的图像;再对t=1时刻的图像加入噪声,得到t=2时刻的噪声。然后重复此法,到T时...