Transformer注意力QKV的来历 | 若Transformer模型中,我们让QKV三矩阵都等于输入矩阵X,我们有没有发现一个问题?当Q K V 三个矩阵都等于输入矩阵X,且输入矩阵X是一个常量,这就导致我们的注意力机制的公式中,并不会存在未知变量,其通过注意力机制公式后,必然也是一个常量。这样的常量数据是无法送去Transformer神经网...