目标检测回归损失函数1:L1 loss, L2 loss以及Smooth L1 Loss的对比 这个博客让我看明白了三者的区别: https://www.cnblogs.com/wangguchangqing/p/12021638.html 总结就是smoothL1loss完美的规避了L1loss和L2loss的缺点 相对于L1loss来说,收敛的更快了 相对于L2loss来说,对于离群点更加友好,梯度变化小 ...
1、L1 loss 在零点不平滑,用的较少 ,、一般来说,L1正则会制造稀疏的特征,大部分无用特征的权重会被置为0 2、Smooth L1 Loss 修改零点不平滑问题 , L1-smooth比L2范数的对异常值的鲁棒性更强。 3、L2 loss:对离群点比较敏感,如果feature 是 unbounded的话,需要好好调整学习率,防止出现梯度爆炸的情况[fast...
Smooth L1 和 L1 Loss 函数的区别在于,L1 Loss 在0点处导数不唯一,可能影响收敛。Smooth L1的解决办法是在 0 点附*使用*方函数使得它更加*滑。 Smooth L1的优点 相比于L1损失函数,可以收敛得更快。 相比于L2损失函数,对离群点、异常值不敏感,梯度变化相对更小,训练时不容易跑飞。
smooth L1损失函数为: smooth L1损失函数曲线如下图所示,作者这样设置的目的是想让loss对于离群点更加鲁棒,相比于L2损失函数,其对离群点(指的是距离中心较远的点)、异常值(outlier)不敏感,可控制梯度的量级使训练时不容易跑飞。 smooth L1损失函数曲线 总结:从上面可以看出,该函数实际上就是一个分段函数,在[-...
相比于L1 Loss,可以收敛得更快。 相比于L2 Loss,对离群点、异常值不敏感,梯度变化相对更小,训练时不容易跑飞。 曲线分布如下: 五、补充知识 1.什么是梯度爆炸? 在深度神经网络中,一般使用反向传播更新权重,由于链式法则误差梯度会在逐层更新中积累,变成非常大的梯度,然后导致网络的权重大幅更新,在极端情况下会权...
当loss较小时,L2 Loss的梯度会变得很小,而L1 Loss梯度会更加稳定,因此,L1 Loss相比于L2 Loss更容易收敛于0,而L2 Loss则会收敛到较小的值,而不是0。 当训练数据集有微小的变化时,由于L1 Loss函数稳定的梯度,模型可能会越过临近的最右解,从而使得训练过程发生震荡,而L2 Loss则能以较小的梯度过渡到临近的最优...
目标检测回归损失函数1:L1 loss, L2 loss以及Smooth L1 Loss的对比 这个博客让我看明白了三者的区别: https://www.cnblogs.com/wangguchangqing/p/12021638.html 总结就是smoothL1loss完美的规避了L1loss和L2loss的缺点 相对于L1loss来说,收敛的更快了 相对于L2loss来说,对于离群点更加友好,梯度变化小 ...
平滑L1损失函数与L1-loss的区别在于,L1-loss在0点处导数不唯一,可能影响收敛。而平滑L1损失通过在0点附近使用平方函数,使得其更加平滑。以下是三种损失函数的公式比较:L2 loss:公式:...L1 loss:公式:...Smooth L1 loss:公式:...Fast RCNN指出,与R-CNN和SPPnet中使用的L2损失相比,平滑...
其中,L1 loss(平均绝对误差)与L2 loss(均方误差)在性质上有显著差异。L1 loss以其连续性和平滑的导数为特点,但对离群点不敏感,可能导致收敛较慢。MSE(均方误差)则更易于优化,对较大误差有更强的惩罚,但容易被离群点主导,影响整体性能。在选择上,如果目标是检测离群点,MSE是首选;若离...