diffusion_pytorch_model.safetensors 就是改名后的 sdxl-vae-fp16-fix.safetensorsconfig.json和它放在一起。节点要用那个奇葩的Diffusers Vae Loader奇葩在哪?不能下拉选择。另外这套工作流我原先尝试过,但是我的显存是12G的,玩不了。目测至少需要16G显存。CPU貌似玩不了,因为是半精度,CPU需要全精度才能跑。
(求助帖)关于mad..报错madebyollin/sdxl-vae-fp16-fix 没有找到 config.json.文件 我在抱脸上也没有找到对应sdxl-vae-fp16-fix的模型
官方的Stable Diffusion XL VAE的权重已经开源:sdxl-vae 需要注意的是,原生Stable Diffusion XL VAE采用FP16精度时会出现数值溢出成NaNs的情况,导致重建的图像是一个黑图,所以必须使用FP32精度进行推理重建。如果大家想要FP16精度进行推理,可以使用sdxl-vae-fp16-fix版本的SDXL VAE模型,其对FP16出现的NANs的情况...
当使用fp32时,数值稳定性更高,能够处理较大的数值范围。 2. 更换vae 在TensorRT进行编译的时候,会首先找到torch models,将torch models的vae_decoder的配置文件和权重修改为`https://huggingface.co/madebyollin/sdxl-vae-fp16-fix`时,完美解决问题。
0"euler_a = EulerAncestralDiscreteScheduler.from_pretrained( model_id, subfolder="scheduler")vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)pipe = StableDiffusionXLAdapterPipeline.from_pretrained( model_id, vae=vae, adapter=adapter...
我在实验中发现 min-snr 损失效果最好。纯 fp16 训练对我不起作用,所以我不得不求助于混合精度,模型使用 fp32。由于潜变量已经编码,不需要加载 VAE,节省了宝贵的内存。为了在训练期间生成样本图像,我使用一台单独的机器,它抓取保存的检查点并生成样本图像。同样,这节省了训练机器的内存和计算。
("madebyollin/sdxl-vae-fp16-fix",torch_dtype=torch.float16)pipe=StableDiffusionXLAdapterPipeline.from_pretrained(model_id,vae=vae,adapter=adapter,scheduler=euler_a,torch_dtype=torch.float16,variant="fp16",).to("cuda")# load lineart detectorline_detector=LineartDetector.from_pretrained("lll...
madebyollin-sdxl-vae-fp16-fix.safetensors SDXL VAE权重,支持 fp16,可以让推理更快。 https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/webui/madebyollin-sdxl-vae-fp16-fix.safetensors stable-diffusion-webui/models/VAE madebyollin_sdxl_vae_fp16_fix/diffusion_pytorch_model.safetensors...
保存设置,这里我的模型保存精度选择bf16: 因为我训练的精度也选的是bf16,速度优化选项里可以看到: 如果显存小点,16G的话选择fp16就行。 训练相关参数没改啥,一般我都是step20,epoch10。 如果显存小,也可以只训练unet试试。 优化器选择的经验,我之前在纯小白想开训lora?参数设置看这一篇就够用了这里讲过DAdapt...
不过SDXL Turbo模型并不包含Refiner部分,只包含U-Net(Base)、VAE和CLIP Text Encoder三个模块。在FP16精度下SDXL Turbo模型大小6.94G(FP32:13.88G),其中U-Net(Base)大小5.14G,VAE模型大小167M以及两个CLIP Text Encoder一大一小分别是1.39G和246M。