3.2 A-Softmax vs AM-Softmax 维度间隔类型计算复杂度参数解释性数据兼容性-乘性角度间隔高(涉及角度计算)抽象(角度倍数)依赖球形假设-加性余弦间隔低(纯向量内积)直观(余弦差值)适应任意流形维度A-SoftmaxAM-Softmax间隔类型乘性角度间隔mθ加性余弦间隔cosθ−m计算复杂度高(涉及角度计算)低(纯向量内积)...
得到A-SoftMax loss 公式: 其中\psi\left( \theta_{y_{i},i} \right)=\left( -1 \right)^{k}cos\left( m\theta_{y_{i},i} \right)-2k , \theta_{y_{i},i}\in \left[ \frac{\pi}{km},\frac{\left( k+1 \right)\pi}{m} \right] , k\in\left[ 0,m-1 \right]。 m\geq...
如果m=1,那么类别1与类别2的决策平面是同一个平面,如果m≥2v,那么类别1与类别2的有两个决策平面,相隔多大将会在性质中说明。从上述的说明与Lmodified可以直接得到A-Softmax Loss: Lang=1N∑i−log(exp(∥xi∥cos(mθyi,i))exp(∥xi∥cos(mθyi,i))+∑j≠yiexp(∥xi∥cos(θj,i)))(1.4) 其中...
Modified Softmax Loss与A-Softmax Loss的不同之处在于两个不同类的决策平面是同一个,不像A-Softmax Loss,有两个分隔的决策平面且决策平面分隔的大小还是与$m$的大小成正相关,如下图所示。 2. A-Softmax Loss的性质 性质1:A-Softmax Loss定义了一个大角度间隔的学习方法,$m$越大这个间隔的角度也就越大...
L-Softmax是最早将边距引入Softmax的方法之一,通过增大类间距离和减小类内距离,提升了分类任务的性能。其在二元分类中,通过调整参数m来增大决策边界,使得分类更严格。A-Softmax则在SphereFace论文中提出,它在L-Softmax的基础上,将分类器权重归一化,使得模型在开放式人脸识别数据集上表现更优。决策...
可以分隔不同的类别。Modified Softmax Loss 与A-Softmax Loss 的不同之处在于两个不同类的决策平⾯是同⼀个,不像A-Softmax Loss ,有两个分隔的决策平⾯且决策平⾯分隔的⼤⼩还是与m 的⼤⼩成正相A-Softmax 的总结及与L-Softmax 的对⽐——SphereFace 1. A-Softmax 的推导 ...
论文中还给出了这三种不同Loss的几何意义,可以看到的是普通的softmax(Euclidean Margin Loss)是在欧氏空间中分开的,它映射到欧氏空间中是不同的区域的空间,决策面是一个在欧氏空间中的平面,可以分隔不同的类别。Modified Softmax Loss与A-Softmax Loss的不同之处在于两个不同类的决策平面是同一个,不像A-Softma...
AM-Softmax 引入了与 L-Softmax 和 A-Softmax 不同的方法,通过修改 ψ(θ) 函数,简化了损失计算过程。它还引入了超参数 s 来缩放余弦值,进一步提高了性能。AM-Softmax 损失定义如下:...决策边界由以下公式定义:...在二分类示例中,AM-Softmax 通过调整 m 来控制决策范围的宽度,以达到...
1. A-Softmax的的推推导导 回顾一下二分类下的Softmax后验概率,即: p1=exp(WT 1x+b1)exp(WT 1x+b1)+exp(WT2x+b2)p2=exp(WT2x+b2)exp(WT 1x+b1)+exp(WT2x+b2)(1.1) (1.1)p1=exp(W1Tx+b1)exp(W1Tx+b1)+exp(W2Tx+b2)p2=exp(W2Tx+b2)exp(W1Tx+b1)+exp(W2Tx+b2) 显然决策的分界...
1. A-Softmax的推导 2. A-Softmax Loss的性质 3. A-Softmax的几何意义 4. 源码解读 A-Softmax的效果 与L-Softmax的区别 A-Softmax的总结及与L-Softmax的对比——SphereFace 【引言】SphereFace在MegaFace数据集上识别率在2017年排名第一 文章来源: blog.csdn.net,作者:网奇,版权归原作者所有,如需转载...