所以有 Margin的训练就会把 i 类别的输入特征和权重间的夹角θ_yi缩小 L2归一化来修正单个权重||W_j||=1,还通过L2归一化来固定嵌入特征||x_i|,并将其重新缩放(re-scale )成s。特征和权重的归一化步骤使预测仅取决于特征和权重之间的角度。因此,所学的嵌入特征分布在半径为s的超球体上。 决策边界:ArcFace...