深度学习的模型的训练..我组了个3060的机器,用来跑模型。2 batch-size下,GPU利用率满了,但显存还没满,我就改成了4 batch-size,结果运行时间直接从12个小时,变成了26个小时。我之前的理解是batch size和运行时间没有什么太大的关系,但这结果完全不对,是我之前的理解
如何实现梯度累积训练? | 梯度累积是一种时间换空间的模型训练方式,可以大幅度的减少显存和内存的使用,其原理如下所示: 如果当前的显存只能允许训练batch size为512的模型,通过提升batch size可以一定程度上提升精度,那么如何在资源有限的情况下训练batch size 为1024的模型呢?