λ是L2正则化系数,用于控制正则项对总损失的贡献程度。 ||w||2是权重向量w的L2范数的平方。 weight _decay本质上是一个L2正则化系数 可以理解为: 加上这个 L2正则化,会限制模型的权重都会趋近于0 理解就是当w趋近 0 时,w平方和 会小, 模型损失也会变小 而weight_decay的大小就是公式中的λ,可以理解为λ越大,
长期以来,大家提到L2正则化(L2 normalization)和权重衰减(Weight Decay)的时候总是默认它们实质上是相等的,都是对参数 W 的L2范数施加一个正则项惩罚,防止过大的参数造成过拟合,只不过实现的方式不同: L2正则化:顾名思义,在原来的loss L 的基础上加一个L2范数正则项,变成 L'=L+ \frac{1}{2} \lambda W...
Weight decay 一、L2正则和Weight Decay并不等价。这两者常常被大家混为一谈。首先两者的目的都是想是使得模型权重接近于0。L2正则是在损失函数的基础上增加L2 norm, 即为ftreg(xt)=ft(xt)+w2||x||22 。而权重衰减则是在梯度更新时直接增加一项, xt+1=(1−w)xt−α∇ft(xt) (直接求导的结果)。