二、self-attention的计算公式 1. 计算权重 对于输入序列中的每个元素,首先需要计算其与其他所有元素的相关度。这可以通过以下公式来实现: \[ E_{ij} = q(i) \cdot k(j) \] 其中,\( E_{ij} \) 表示元素i与元素j的相关度,\( q(i) \) 表示元素i的查询向量,\( k(j) \) 表示元素j的键向量。