Transformer[^1]论文中使用了注意力Attention机制,注意力Attention机制的最核心的公式为: Attention(Q,K,V)=Softmax(QK⊤√dk)V 这个公式中的Q、K和V分别代表Query、Key和Value,他们之间进行的数学计算并不容易理解。 从向量点乘说起 我们先从 Softmax(XX⊤)X ...
多头注意力 为了增强拟合性能,Transformer对Attention继续扩展,提出了多头注意力(Multiple Head Attention)。刚才我们已经理解了,Q、K、V是输入X与W^Q、W^K和W^V分别相乘得到的,W^Q、W^K和W^V是可训练的参数矩阵。现在,对于同样的输入X,我们定义多组不同的W^Q、W^K、W^V,比如W^Q_0、W^K_0、W^V_...
注意力Attention机制的最核心的公式为:Softmax(\frac{QK^\top}{\sqrt{d_{k}}})V,与我们刚才分析的Softmax(\mathbf{X}\mathbf{X}^\top)\mathbf{X}有几分相似。Transformer[^1]论文中将这个Attention公式描述为:Scaled Dot-Product Attention。其中,Q为Query、K为Key、V为Value。Q、K、V是从哪儿来的呢?