刚刚简单用Byzer测试了下 一个7B 的模型。在开启 zero3 offload的情况下,大概占用130G 显存 170G 内存。所以八卡 3090 还是可以跑起来的。估计16卡应该就不用offload到内存了。传统使用deepspeed 做预训练要做诸如机器的免密码登录,设置hostfile文件控制资源,设置一票环境变量,此外还要手动拷贝数据到各个节点,还很难...