从另一个角度来看,令\theta_{1}^{'}=m\theta_{1},假设original softmax loss和L-Softmax损失都可以优化到相同的值。然后我们可以知道original softmax loss中的\theta_{1}^{'}比L-Softmax损失中的\theta_{1}大m-1倍。结果,learned feature和W_{1}之间的角度将变小。对于每个类别,同样的结论成立。本...
softmax损失改进中,L-Softmax提出了一种新的决策间隔,要求更严格的分类标准,为正确分类生成更严格的决策边界。L-Softmax损失定义为softmax损失与预设常数的乘积,随着常数增大,分类界限扩大,学习目标难度增加。通过特定构造常数,简化前向和后向传播,构建特定公式以优化损失值。几何角度分析,L-Softmax...
ψ(θ)首先出现在公式 (4) 中:(4)Li=−log(e‖Wyi‖‖xi‖ψ(θyi)e‖Wyi‖‖xi‖ψ...
Eq. (6)给出的是一种满足条件的具体计算方式,并且统一了形式保证可以BP, 代入Eq. (4)就可以算loss...