transformer注意力qkv解读 | 超详细图解Self-Attention 这篇文章不错,但是后面讲解wq,wk,wv部分不敢苟同。这里个人作了一下补充。前面相似性解读都认同,但是wq,wk,wv矩阵的解读还是不足,其实transformer关键在于这三个矩阵,包括多头注意力也是这三个矩阵的不同。如果前面x词向量本身表示了词本身的意义,那么wq,wk则...