这个命令是A100的微调命令,实际batch size调小之后就可以被用在较小显存的显卡上面,实际测试batch size调整为2,在移动端RTX4090 16G上也可以运行。 微调后的模型结构包括LLM、tokenizer、adapter 我用了alpaca-lora的在线运行模型的代码来验证模型微调效果,如果希望把LLM和adapter合并的话也是有代码的,我用了LLaMA-Fact...
使用xformers时,需确保推理过程也运行在包含xformers的环境中,以避免精度溢出导致的黑图问题。综上所述,我们通过移除EMA参数和配置,将训练时batchsize=2的显存消耗降至16G以下,并通过引入xformers为更高分辨率图像处理做准备。代码已更新至仓库,欢迎参考使用。
在昨晚上述改动之后,我们重新以2张卡来开启训练,这个时候我们的batchsize选择2,看看显存消耗,cool!成功的降低到16G以下了! 3、Xformers 接下来,我们会使用xformers对整体进行进一步的加速。 注意,这个配置对显存降低并没有太过明显的优化,是由于使用的图像的分辨率不高,当我们将原图的分辨率提高时,用xformers时效果...
# the path to save LoRA adapters per_device_train_batch_size=2, # the batch size gr...
通过 auto_parallel,你可以有效地利用多个显卡来加速训练过程,并可以增加 batch size。
大概哪里设置有问题吧,说不定是没用gpu
本文实践了在两块P100(16G)上微调Llama-2-7b-chat模型的过程,源码在https://github.com/git-cloner/llama2-lora-fine-tuning,参照了https://github.com/FlagAlpha/Llama2-Chinese。由于每种推理卡的情况不同,所以针对P100删除了bf16、fp16等参数,精度也降到了8bit进行微调。
数据集是啥,然后单张图片尺寸呢,另外会不会有其他人占用gpu 大概