Large Margin Softmax (L-Softmax) Angular Softmax (A-Softmax) 附加边距 Softmax (AM-Softmax) 概括 注:本文翻译自《Additive Margin Softmax Loss (AM-Softmax)》一文。 在分类中,将创建一个决策边界来分隔类。但是,当输出位于决策边界附近时,这可能会成为问题。AM-Softmax 旨在通过向决策边界添加边距来...
得到A-SoftMax loss 公式: 其中\psi\left( \theta_{y_{i},i} \right)=\left( -1 \right)^{k}cos\left( m\theta_{y_{i},i} \right)-2k , \theta_{y_{i},i}\in \left[ \frac{\pi}{km},\frac{\left( k+1 \right)\pi}{m} \right] , k\in\left[ 0,m-1 \right]。 m\geq...
这个是他们总结成果的论文:SphereFace: Deep Hypersphere Embedding for Face Recognition。我对论文做一个小的总结。 1. A-Softmax的推导 回顾一下二分类下的Softmax后验概率,即: p1=exp(WT1x+b1)exp(WT1x+b1)+exp(WT2x+b2)p2=exp(WT2x+b2)exp(WT1x+b1)+exp(WT2x+b2)(1.1) 显然决策的分界在当p1=...
Modified Softmax Loss与A-Softmax Loss的不同之处在于两个不同类的决策平面是同一个,不像A-Softmax Loss,有两个分隔的决策平面且决策平面分隔的大小还是与$m$的大小成正相关,如下图所示。 2. A-Softmax Loss的性质 性质1:A-Softmax Loss定义了一个大角度间隔的学习方法,$m$越大这个间隔的角度也就越大...
1. A-Softmax的推导 2. A-Softmax Loss的性质 3. A-Softmax的几何意义 4. 源码解读 A-Softmax的效果 与L-Softmax的区别 A-Softmax的总结及与L-Softmax的对比——SphereFace 【引言】SphereFace在MegaFace数据集上识别率在2017年排名第一 文章来源: blog.csdn.net,作者:网奇,版权归原作者所有,如需转载...
L-Softmax是最早将边距引入Softmax的方法之一,通过增大类间距离和减小类内距离,提升了分类任务的性能。其在二元分类中,通过调整参数m来增大决策边界,使得分类更严格。A-Softmax则在SphereFace论文中提出,它在L-Softmax的基础上,将分类器权重归一化,使得模型在开放式人脸识别数据集上表现更优。决策...
AM-Softmax 引入了与 L-Softmax 和 A-Softmax 不同的方法,通过修改 ψ(θ) 函数,简化了损失计算过程。它还引入了超参数 s 来缩放余弦值,进一步提高了性能。AM-Softmax 损失定义如下:...决策边界由以下公式定义:...在二分类示例中,AM-Softmax 通过调整 m 来控制决策范围的宽度,以达到...
论文中还给出了这三种不同Loss的几何意义,可以看到的是普通的softmax(Euclidean Margin Loss)是在欧氏空间中分开的,它映射到欧氏空间中是不同的区域的空间,决策面是一个在欧氏空间中的平面,可以分隔不同的类别。Modified Softmax Loss与A-Softmax Loss的不同之处在于两个不同类的决策平面是同一个,不像A-Softma...
SphereFace在MegaFace数据集上识别率在2017年排名第一,用的A-Softmax Loss有着清晰的几何定义,能在比较小的数据集上达到不错的效果。A-Softmax Loss定义了一个大角度间隔的学习方法,m越大这个间隔的角度也就越大,相应区域流形的大小就越小,这就导致了训练的任务也越困难。
1. A-Softmax的的推推导导 回顾一下二分类下的Softmax后验概率,即: p1=exp(WT 1x+b1)exp(WT 1x+b1)+exp(WT2x+b2)p2=exp(WT2x+b2)exp(WT 1x+b1)+exp(WT2x+b2)(1.1) (1.1)p1=exp(W1Tx+b1)exp(W1Tx+b1)+exp(W2Tx+b2)p2=exp(W2Tx+b2)exp(W1Tx+b1)+exp(W2Tx+b2) 显然决策的分界...