self-attention计算过程 概念self-attention从字面上看,就是自己对自己的注意力。 了解过注意力机制的都知道Q,K,V,在self-attention中,Q,K,V是相同的字嵌入X乘以训练得到的权重得到的。 它也符合注意力机制的计算过程,主要分为以下三部分计算 阶段一 对输入的单词进行词嵌入得到X,X分别与权重计算
1,模型权重:神经网络模型都是由相似的 layer 堆叠而成,例如 cnn 模型的卷积层、池化层、全连接层等;以及 transformer 模型的 self-attention 层、全连接层、layer_norm 层等。 2,中间结果:前向传播计算过程中,前一层的输出就是后一层的输入,相邻两层的中间结果也是需要 gpu 显存来保存的。
自注意力计算过程.png 矩阵 是我们需要学习的矩阵 的时候要除以 ,其中 为向量 维数 都是对向量的操作 最终的结果可以看做一个单词在句子中的重要程度。