3.chatglm_v2_6b_lora 添加了上面的参数,确实可以进行模型并行,但是,这是在chatglm模型代码没有bug的情况下,目前已经定位到bug,并且修复了bug,我也提交PR给chatglm团队,可以点击这个链接查看https://huggingface.co/THUDM/chatglm2-6b/discussions/54#64b542b05c1ffb087056001c 考虑到他们团队效率问题,如果他们...
dolly-v2-3b for fsdp zero2/zero3 two node setup (2 nodes per 2 gpus each). To Reproduce Steps to reproduce the behavior: (example for one model) mkdir -p output docker run --pull=always --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v $PWD/output:/output -...
3.chatglm_v2_6b_lora 添加了上面的参数,确实可以进行模型并行,但是,这是在chatglm模型代码没有bug的情况下,目前已经定位到bug,并且修复了bug,我也提交PR给chatglm团队,可以点击这个链接查看https://huggingface.co/THUDM/chatglm2-6b/discussions/54#64b542b05c1ffb087056001c 考虑到他们团队效率问题,如果他们...