self-attention的计算过程

2025-06-14 20:45:52

拼音 [ 拼音 ]

self-attention计算过程 - 程序员大本营

self-attention计算过程概念self-attention从字面上看,就是自己对自己的注意力。了解过注意力机制的都知道Q,K,V,在self-attention中,Q,K,V是相同的字嵌入X乘以训练得到的权重得到的。它也符合注意力机制的计算过程,主要分为以下三部分计算阶段一对输入的单词进行词嵌入得到X,X分别与权重计算
...transformer 模型的 self-attention 层、全连接层、layer_norm...

1,模型权重:神经网络模型都是由相似的 layer 堆叠而成,例如 cnn 模型的卷积层、池化层、全连接层等;以及 transformer 模型的 self-attention 层、全连接层、layer_norm 层等。 2,中间结果:前向传播计算过程中,前一层的输出就是后一层的输入,相邻两层的中间结果也是需要 gpu 显存来保存的。
self-attention(自注意力机制)计算过程 - 简书

自注意力计算过程.png 矩阵是我们需要学习的矩阵的时候要除以 ,其中为向量维数都是对向量的操作最终的结果可以看做一个单词在句子中的重要程度。