因为argmax函数不能求导,也就不会有梯度 backward的反向传播的梯度到loss是终止了 其实也很容易看出这个问题,如果最后一步使用了argmax,loss的属性 requires_grad=False,直接调用backward会提示你需要给loss增加梯度属性,但这“治表不治本 ” 网上有两个ref参考 https://discuss.pytorch.org/t/torch-argmax-cause-...