有可能因为训练精度问题, 出现loss为NAN的情况。 使用DeepSpeed stage2之后, 就不能灵活地更改optimizer了 DeepSpeed进程目前还不支持在Vscode进行debug, 因为缺少相应的VScode编译插件的支持 参考: DeepSpeed Docs deepspeed入门教程 DeepSpeed Integration DeepSpeed: Extreme-scale model training for everyoneCopyright...