self-attention可以学习到一组Wq,Wk,Wv,通过Wq,Wk,Wv计算出一个关联度矩阵,然后通过关联度矩阵重新对输入的词嵌入加权产生新的注意力特征output。
小蜜蜂巧克力果冻:单头self-attention计算过程 1.计算QKV矩阵 还是假设“我想吃”序列长度L=3的例子,词嵌入的编码维度是4,num_heads=2,头数量是2。词嵌入通过生成Wq,Wk,Wv产生Q、K、V,再根据num_heads将QKV平均分成num_heads份,如下图所示,现在的QKV的shape=(2,3,2),即两个shape=(3,2)的QKV。 2....
self-attention计算过程 概念self-attention从字面上看,就是自己对自己的注意力。 了解过注意力机制的都知道Q,K,V,在self-attention中,Q,K,V是相同的字嵌入X乘以训练得到的权重得到的。 它也符合注意力机制的计算过程,主要分为以下三部分计算 阶段一 对输入的单词进行词嵌入得到X,X分别与权重计算得到了Q(查询...
1,模型权重:神经网络模型都是由相似的 layer 堆叠而成,例如 cnn 模型的卷积层、池化层、全连接层等;以及 transformer 模型的 self-attention 层、全连接层、layer_norm 层等。 2,中间结果:前向传播计算过程中,前一层的输出就是后一层的输入,相邻两层的中间结果也是需要 gpu 显存来保存的。