1、优化器:直接上结论吧,如图一所示,上面是普通的 梯度下降,下面是Adam优化器中的梯度下降,一般采用Adam优化器及其变体特别是AdamW见很多论文都在用;同时,要采用学习率下降策略,即随着迭代进行,学习率手动下降,这个一般可直接调用torch.optim.lr_scheduler的函数,比如:StepLR、ExponentialLR、CosineAnnealingLR等,这样...