当Q K V 三个矩阵都等于输入矩阵X,且输入矩阵X是一个常量,这就导致我们的注意力机制的公式中,并不会存在未知变量,其通过注意力机制公式后,必然也是一个常量。这样的常量数据是无法送去Transformer神经网络模型中,进行相关的数据训练的,这样我们的Transformer模型也不知道该训练哪个参数。attention注意力机制也便失去了...