λ是L2正则化系数,用于控制正则项对总损失的贡献程度。 ||w||2是权重向量w的L2范数的平方。 weight _decay本质上是一个L2正则化系数 可以理解为: 加上这个 L2正则化,会限制模型的权重都会趋近于0 理解就是当w趋近 0 时,w平方和 会小, 模型损失也会变小 而weight_decay的大小就是公式中的λ,可以理解为...
这个结论来自于经典的AdamW论文Decoupled Weight Decay Regularization,原因不难从下图的看出(第6行的紫色部分):L2正则化作为一个辅助loss反映在梯度中,这个梯度不像SGD那样直接取负作为参数更新量,而是还要加上一阶动量β1mt−1(第7行),并且除以二阶动量vt^(第12行),即历史上梯度二范数的滑动平均值的平方根。...
在标准SGD的情况下,通过对衰减系数做变换,可以将L2正则和Weight Decay看做一样。但是在Adam这种自适应学习率算法中两者并不等价。 二、使用Adam优化带L2正则的损失并不有效。如果引入L2正则项,在计算梯度的时候会加上对正则项求梯度的结果。那么如果本身比较大的一些权重对应的梯度也会比较大,由于Adam计算步骤中减去...