通常,我们会使用学习率衰减,所以weight_decay设置0.01即可。如果weight_decay设置太小,几乎就不起作用了。 发布于 2022-02-14 20:31 内容所属专栏 备忘录 备忘录 订阅专栏 工作笔记, 备忘录 桌面便签 备忘录 赞同128 条评论 分享喜欢收藏申请转载 ...