1.自注意力(Self-Attention)机制 自注意力机制的结构如下图所示: 自注意力机制中的输入为 Q, K, V。 Q, K, V 都是对输入(例如词向量矩阵X)做线性变换得到的,可以简单的认为 Q, K, V 就是矩阵 X 的另一种表现形式,或者更粗暴的认为 Q\approx K \approx V \approx X。为什么一定要产生 Q, K, ...
深度解析Transformer结构图 | 1.上图是Transformer的完整结构图 2.Transformer的结构图,拆解开来,主要分为图上4个部分,其中最重要的就是2和3Encoder-Decoder部分。 3.Transformer是一个基于Encoder-Decoder框架的模型,因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。