2022年可谓是AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Stable Diffusion,下半年有OpenAI的文本对话大模型ChatGPT问世,这让冷却的AI又沸腾起来了,因为AIGC能让更多的人真真切切感受到AI的力量。这篇文章将介绍比较火的文生图模型Stable Diffusion(简称SD),Stable Diffusion不仅是一个完全开源的模...
import torch pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16) pipe = pipe.to("cuda") 我们可以再次调用pipeline来生成图像。 generator = torch.Generator("cuda").manual_seed(0) image = pipe(prompt, generator=generator).images[0] image Cool,对于基本相同的图像...
This stable diffusion prompt generator uses advanced NLP algorithms to analyse your text and suggest the best keywords for generating images.
图 3 给出了 stable diffusion 整体结构示意图,利用文本编码器 text encoder(蓝色模块),把文字转换成计算机能理解的某种数学表示,它的输入是文字串,输出是一系列具有输入文字信息的语义向量。有了这个语义向量,就可以作为后续图片生成器 image generator(粉黄组合框)的一个控制输入。stable diffusion 更多技术介绍和文...
latent diffusion论文中实验了不同参数下的autoencoder模型,如下表所示,可以看到当较小和较大时,重建效果越好(PSNR越大),这也比较符合预期,毕竟此时压缩率小。 论文进一步将不同的autoencoder在扩散模型上进行实验,在ImageNet数据集上训练同样的步数(2M steps),其训练过程...
当然,因为本文包含纯 CPU 也能玩的部分,你也可以参考几个月前的《在搭载 M1 及 M2 芯片 MacBook设备上玩 Stable Diffusion 模型》,来配置你的环境。 在准备好 Docker 环境的配置之后,我们就可以继续玩啦。 我们随便找一个合适的目录,使用git clone或者下载 Zip 压缩包的方式,先把“Docker Prompt Generator(Doc...
Stable Diffusion模型的主体结构如下图所示,主要包括三个模型: AutoEncoder:Encoder将图像压缩到Latent空间,而Decoder将Latent解码为图像;CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition;UNet:扩散模型的主体,用来实现文本引导下的Latent生成。
本文基于 Stable diffusion WebUI 进行讲解(安装在 AutoDL 上,安装在本地电脑上的也同样适用本教程)。 初始界面: 文件目录结构: 上图红框中的 4 个文件夹是我们常用到的,embeddings 放置训练的 embedding 模型,它可以在我们使用基础模型时,再添加此模型进行叠加效果。
Generator:用于生成二维码供SD作为原始文件,其中纠错等级尽量高一些 Compare:用于比对SD生成的结果和原始二维码的差异,并自动修复。 参考资料:Antfu: Refining AI Generated QR Code 使用Stable Diffusion controlnet 实现二维码转图片 通常来说原始内容越短的二维码,生成后越容易被识别 ...
有了这个语义向量,就可以作为后续图片生成器 image generator(粉黄组合框)的一个控制输入。stable diffusion 更多技术介绍和文本编码器工作原理可以查看《【AI 绘画】十分钟读懂 Stable Diffusion 运行原理》。要想生成出满意照片,输入合适提示词就变得非常重要,接下来就从“如何写好提示词”出发,对文生图的提示词输入...