二、self-attention的计算公式 1. 计算权重 对于输入序列中的每个元素,首先需要计算其与其他所有元素的相关度。这可以通过以下公式来实现: \[ E_{ij} = q(i) \cdot k(j) \] 其中,\( E_{ij} \) 表示元素i与元素j的相关度,\( q(i) \) 表示元素i的查询向量,\( k(j) \) 表示元素j的键向量。
Transformer模型的位置编码 | 在RNN循环神经网络结构中,由于其模型结构的设计,其RNN模型天生存在一个输入输出序列的关系,其序列关系就是按照句子的输入顺序,这就让RNN模型天生存在位置信息,无论模型如何训练,其位置信息不会丢失。 但是在Transformer模型中,其由于模型进行self-attention后,模型便会丢失位置信息,丢失位置信...