调用optimizer.zero_grad() 来重置模型参数的梯度。 默认情况下渐变加起来; 为了防止重复计算,我们在每次迭代时明确地将它们归零。 通过调用 loss.backward() 反向传播预测损失。 PyTorch 存储损失 w.r.t 的梯度。 每个参数。 一旦我们有了梯度,我们调用 optimizer.step() 来通过反向传播中收集的梯度来调整参数。