Transformer 是谷歌推出的一种基于注意力机制的编码器-解码器模型,它在机器翻译、文本生成等任务中达到了非常好的表现。 注意力机制的原理是通过计算各个元素之间的相似度,来确定每个元素对其他元素的贡献,从而对每个元素进行加权平均。在 Transformer 中,注意力机制的计算是基于矩阵乘法和 softmax 函数实现的。 具体来...