Stable diffusion model也可以叫做checkpoint model,是预先训练好的Stable diffusion权重,用于生成特定风格的图像。模型生成的图像类型取决于训练图像。如果训练数据中从未出现过猫的图像,模型就无法生成猫的图像。同样,如果只用猫的图像来训练模型,它也只会生成猫的图像。
作者:corey 随着 stable-diffusion 的开源,让更多人有机会直接参与到 AI 绘画的创作中,相关的教程也如雨后春笋般的出现。可是目前我看到的教程同质性较高,通常只能称作为"使用流程讲解",但是通常没有对其原理和逻辑进行深入说明。所以本文的目的,是用尽可能少的废话
在latent space上应用Diffusion Model进行正向采样和逆向预测。总的来说,有如下步骤:数据预处理:使用预训练的VAE模型对输入图片进行编码,将其映射到潜在空间。正向扩散:在潜在空间上,对编码后的数据添加噪声,模拟扩散过程。逆向预测:训练模型从含噪声的数据中恢复出原始图像,即逆向扩散过程。参数调整:通过调整学习率、...
stable diffusion模型由三个model组成: Text Encoder:负责将文字转化为特征向量(将输入的文本描述转换成潜在空间中的特征表示) Generation Model:在这里使用diffusion model,使用输入的杂讯与text encoder的输出生成一个”中间产物“,即图片被压缩后的结果 Decoder:把压缩后的版本还原为原始图像 三个model分开训练后再组合...
Settings 中将Stop At last layers of CLIP model设为2 匹配NAI 的一个**优化**。 Settings 中将Eta noise seed delta设置为31337 将NovelAI 自动填充的正反标签前置在提示词组中 正向标签:masterpiece, best quality, 反向标签:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, ...
图片高清化:这边使用的是:4x-UltraSharp修复工具(点击提取码1234):下载后打开JupyterLab,把文件放到/stable-diffusion-webui/models-ESRGAN里面就可以了。 设置:打开GFPGAN:1; 或者打开codeFormer的值全为1;就可以了 9.StableDiffusion实际操作-见习功法:AI动画制作(AnimateDiff) ...
变分编码器(Vector Quantised Variational AutoEncoder,VQ-VAE) 扩散模型(Diffusion Model, DM),在生成图片中起着最重要的作用 条件控制器(Conditioning) 详细原理介绍可参考文章 Stable Diffusion 简介 用一句话总结 SD 的模型原理:图片通过 VAE 转换到低维空间,配合 Conditioning 的 DM 产生新的变量,再通过 VAE 将...
stable-diffusion-webui/models/Stable-diffusion/ 按下左上角checkpoint下拉框旁的刷新按钮。 你应该看到你刚刚放入的checkpoint文件可供选择。选择新的checkpoint文件以使用该模型。 或者,在txt2img或img2img页面上选择“checkpoint”标签并选择一个模型。
diffusion model在生成图片时需要指引,我们可以通过图片/文字进行实现 我们如何用语言来指引或控制最后生成的结果? 答案也很简单——注意力机制。在最开始我们讲到,我们用Text Encoder提取语义信息。 那这个语义信息怎么在生成图片的过程中使用呢?我们直接使用注意力机制在Unet内层层耦合。
下图是一张用stable diffusion生成的AI图片: 将上面这张图片拖到PNG Info窗口,就能看到下图的界面: 怎么将这张图片拖到PNG Info窗口呢?将图片拖到下图1的位置,然后点击下图2发送到“图生图”: 这时候,上面这张用stable diffusion生成的AI图片的所有原始信息就会出现在“图生图”的界面里面了(见下图),包括正负提示...