L1 损失和 L2 损失是两种常用的损失函数,用于衡量模型的预测值与真实值之间的误差。它们的主要区别在于对误差的处理方式不同,导致它们的性质和应用场景有所不同。 1.L1 损失 (绝对值损失, MAE) L1 损失计算的是预测值与真实值之间绝对误差的总和: [ L_{\text{L1}} = |\mathbf{\epsilon} - \hat{\mathbf{\
smooth L1损失函数曲线如下图所示,作者这样设置的目的是想让loss对于离群点更加鲁棒,相比于L2损失函数,其对离群点(指的是距离中心较远的点)、异常值(outlier)不敏感,可控制梯度的量级使训练时不容易跑飞。 smooth L1损失函数曲线 总结:从上面可以看出,该函数实际上就是一个分段函数,在[-1,1]之间实际上就是L2...
相对于L2损失函数,L1损失函数对离群值(即预测值与目标值差异较大的样本)更加稳健。这是因为L1损失函数在离群值处的梯度是常数,不会因为预测值与目标值之间的差异而变化。然而,在其他样本和平均样本处,L1损失函数的梯度突然变化,这可能导致不稳定的梯度下降。 在使用L1损失函数时,优化算法(如梯度下降)将尝试最小...
L1和L2都可以做损失函数使用。 1. L2损失函数 L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值 yi 与估计值 f(xi) 的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。 L=∑i=1n(yi−f(xi))2 2. L1损失函数 也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE...
L1损失函数的导数是常量,有着稳定的梯度,所以不会有梯度爆炸的问题。对于离群点造成的惩罚是固定的,不会被放大。 2. 存在的问题 MAE函数虽然连续,但是在0处不可导。而且MAE的导数为常数,所以在较小的损失值时,得到的梯度也相对较大,可能造成模型震荡不利于收敛。 二、 L2 Loss 1.函数特性 L2 Loss也称为均方...
Smooth L1 loss: 定义:平滑L1损失,是L1损失的一种变体,在误差较小时采用平方损失,误差较大时采用线性损失。 特点:结合了L1损失和L2损失的优点,对离群点更加鲁棒,同时对误差的梯度变化相对较小,有助于在训练过程中保持稳定性。在0点附近使用平方函数,使得损失函数更加平滑,避免了L1损失在0点...
L2 = Σ(yi - ŷi)² 接下来,我们将重点讨论L1和L2损失函数的区别。1.敏感度不同:L1损失函数对异常值具有更强的敏感性,因为它是通过求绝对差值来计算损失。而L2损失函数对异常值的敏感性较小,因为平方差值使得异常值的影响减小。2.唯一解和非唯一解:L1损失函数在所有的预测误差相等时往往存在多个最小...
L2损失函数:定义:通过最小化预测值与真实值之间平方差的平均值,适用于回归问题。特点:对异常值敏感,因为平方差会放大异常值的影响。L1损失函数:定义:通过最小化预测值与真实值之间绝对差的平均值。特点:对异常值具有较好的鲁棒性,因为绝对差不会放大异常值的影响。三、正则化 L2正则化:定义:...
L1损失函数:最小化绝对误差,因此L1损失对异常点有较好的适应更鲁棒,不可导,有多解,解的稳定性不好。 关于L1损失函数的不连续的问题,可以通过平滑L1损失函数代替: L2损失函数:最小化平方误差,因此L2损失对异常点敏感,L2损失函数会赋予异常点更大的损失值和梯度,调整网络参数向减小异常点误差的方向更新,因此容易造...