缩放点积模型:s(x,q)=xTq√D (缩小方差,增大softmax梯度) 双线性模型:s(x,q)=xTWq (非对称性) 软性注意力机制: 定义:软性注意力机制通过一个“软性”的信息选择机制对输入信息进行汇总,允许模型以概率形式对输入的不同部分进行关注,而不是强制性地选择一个部分。 加权平均:软性注意力机制中的加权平均表示在给定任务相
可以看到其数据直方图是一样的,只是一个方差为100,一个为1,可以看到方差为100的softmax后,只有一个地方有数据,值为1.其它地方全部为0,这样的结果传递给前端模型后数据无法进行训练更新,而方差经过缩放后的softmax便打破了以上情况,使得模型可以进行前向传播 这也是为何transformer模型中其attention注意力机制的公式使用...