以Adam优化器为例,我们在模型的训练开始之前,一般会这样定义优化器: optimizer = torch.optim.Adam(net.parameters(), lr=0.01, weight_decay=0.0001) 1. 其中weight_decay为正则化项的系数。如上定义,模型在训练时,模型的所有参数(即net.parameters())都将被正则化,而我们希望其中的偏置(bias)不要被正则化。