在反向传播过程中,GradScaler的作用是在损失函数上应用一个缩放因子,这样反向传播得到的梯度都将乘以相同的缩放因子。 具体来说,这个过程涉及到两个主要方面: 1. 数值精度的自动选择:PyTorch通过`torch.cuda.amp`为用户提供了混合精度训练的便利机制。用户无需手动转换模型参数的数据类型,AMP会自动为各个算子选择合适的...