stable diffusion webUI的日常使用占比最高的主要就是文生图与图生图的内容,这边第一个部分主要会针对这两个界面内容着重的介绍每一个模块的具体用法和相关的测评,同时针对SD之中的Prompts使用进行一些讲解,同时结合网上的一些教程来做一些针对性的测评。 1. 界面与描述词的使用 1.1 文生图界面 整体界面如下。主要是...
将webui clone到服务器本地git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui网络可能不好,有时网络出错(不是腾讯的问题)Ctrl+z退出重复操作会提示文件夹已存在,输入以下命令删除已经下载的文件夹rm -rf stable-diffusion-webui再重复bash <(wget -qO- https://raw.githubusercontent.com/A...
stable-diffusion-inpainting 从stable-diffusion-v1-5继续训练 - 然后在“laion-aesthetics v2 5+”数据集上进行了440,000步的图像修复训练,分辨率为512x512,同时在10%的情况下丢弃文本条件。对于图像修复,UNet有5个额外的输入通道(4个用于编码被遮挡的图像,1个用于遮挡本身),它们的权重在恢复非图像修复的...
在Google Colab 平台使用 Stable Diffusion 需要调用官方模型,也就是「sd-v1-4.ckpt」这个文件(目前的版本),如果你之前在 Google Colab 成功运行过任意版本的 Stable Diffusion,那么这个模型就已经成功下载到你的谷歌云盘了,可以直接运行 Deforum Stable Diffusion;如果你之前没有使用 Google Colab 运行过 Stable Diff...
硬核解读Stable Diffusion(系列一) SD的主要应用 下面来介绍SD的主要应用,这包括文生图,图生图以及图像inpainting。其中文生图是SD的基础功能:根据输入文本生成相应的图像,而图生图和图像inpainting是在文生图的基础上延伸出来的两个功能。 文生图 根据文本生成图像这是文生图的最核心的功能,下图为SD的文生图的推理流程...
latent diffusion论文中实验了不同参数下的autoencoder模型,如下表所示,可以看到当较小和较大时,重建效果越好(PSNR越大),这也比较符合预期,毕竟此时压缩率小。 论文进一步将不同的autoencoder在扩散模型上进行实验,在ImageNet数据集上训练同样的步数(2M steps),其训练过程...
,比如说stable-diffusion v1.5训练与推理图片在512x512x3,然后Latent Space的中间表达则是4x64x64,那么我们会有一个decoder D能将图片从Latent Space中解码出来。 在这个过程中我们期望 ,这俩图片无限接近。 整个过程如下图所示: 而执行这个过程的就是我们的Variational Autoencoder,也就是VAE。
在StableDiffusion中,"prompt"是指为GPT模型提供输入的文本段落或句子。它是用来引导模型生成有意义、准确的响应的关键因素之一。 好的Prompt结构 Subject (required) 主体 Medium 艺术类别 Style 艺术风格 Artist 艺术家 Website 艺术流派 Resolution 清晰度
(i%cols*w, i//cols*h))return grid# 加载文生图pipelinepipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", # 或者使用 SD v1.4: "CompVis/stable-diffusion-v1-4"torch_dtype=torch.float16).to("cuda")# 输入text,这里text又称为promptprompts = ["a photograph of...
Stable Diffusion是一个强大的文本条件隐式扩散模型(text-conditioned latent diffusion model),它具有根据文字描述生成精美图片的能力。它不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有1B左右,大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说,Stable Diffusion的出现和开源对...