07 Softmax变体 介绍完 Softmax,我们紧接着总结一下本博客以往讨论过 Softmax 的相关变体工作,比如 Margin Softmax、Taylor Softmax、Sparse Softmax 等,它们都是在 Softmax 基础上的衍生品,侧重于不同方面的改进,比如损失函数、、稀疏性、长尾性等。
Softmax变体 介绍完Softmax,我们紧接着总结一下本博客以往讨论过Softmax的相关变体工作,比如Margin Softmax、Taylor Softmax、Sparse Softmax等,它们都是在Softmax基础上的衍生品,侧重于不同方面的改进,比如损失函数、、稀疏性、长尾性等。 Margin Softmax 首先我们介绍起源于人脸识别的一系列Softmax变体,它们可以统称...
在了解如何引入 margin 之前,我们首先要知道为何要加margin。在SVM时代,margin (以下称作间隔)被认为是模型泛化能力的保证,但在神经网络时代使用的最多的损失函数 Softmax 交叉熵损失中并没有显式地引入间隔项。从第一篇和第三篇文章中我们知道通过 smooth 化,可以在类间引入一定的间隔,而这个间隔与特征幅度和最后...
而A-Softmax做了一件非常巧妙的事 - 它通过引入角度乘数m(通常为2、3或4),强制缩小了每个类别所...
其实从输出上来看也很明显,softmax的输出是个向量,而max函数的输出是一个数值,不可能直接用softmax来取代max。max函数真正的smooth版本是LogSumExp函数(LogSumExp - Wikipedia),对此感兴趣的读者还可以看看这个博客:寻求一个光滑的最大值函数 - 科学空间|Scientific Spaces。
**多种替代方案如Margin Softmax、Sparse Softmax等针对特定场景进行了优化。**在介绍了Softmax函数之后,我们进一步探讨了其相关变体,如Margin Softmax、Taylor Softmax和Sparse Softmax等。这些变体都是在Softmax的基础上进行改进的,它们各自针对不同的方面进行了优化,例如损失函数的改进、稀疏性的提升以及长尾现象...
Softmax 函数是 Logistic 函数的推广,用于多分类。 分值的计算公式不变: f(xi;W)=W∗x 损失函数使用交叉熵损失函数,第 i 个样本的损失如下: Li=−log(efyi∑jefj) 其中正确类别得分的概率可以被表示成: P(yi|xi;W)=efyi∑jefj 在实际使用中, efj 常常因为指数太大而出现数值爆炸问题,两个非常大...
Softmax变体包括Margin Softmax、Taylor Softmax、Sparse Softmax等。Margin Softmax通过增加对目标类别的要求,使得特征在检索场景中更加紧凑。Taylor Softmax利用泰勒展开的性质构建变体,强调长尾性,有助于缓解过度自信现象。Sparse Softmax在训练阶段引入稀疏性,实现与预测阶段一致的处理方式。另一种替代...
Soft-Margin Softmax for Deep Classifica- tion. 2017, 413-421.Liang et al., 2017] X. Liang, X. Wang, Z. Lei, S. Liao, and Stan. Li. Soft-margin softmax for deep classification. In ICONIP, 2017.Xuezhi Liang, Xiaobo Wang, Zhen Lei, Shengcai Liao, and Stan Z. Li. Soft-margin ...
精确地说,SVM分类器使用的是折叶损失(hinge loss),有时候又被称为最大边界损失(max-margin loss)。Softmax分类器使用的是交叉熵损失(corss-entropy loss)。Softmax分类器的命名是从softmax函数那里得来的,softmax函数将原始分类评分变成正的归一化数值,所有数值和为1,这样处理后交叉熵损失才能应用。注意从技术上说...