1. Positional Encoding • 位置编码通常采用正弦和余弦函数生成,并与词嵌入相加,这样模型就能捕捉到序列中的顺序关系。 2. Encoder部分 • 多头自注意力(Multi-Head Attention)层: • 每个“头”执行scaled dot-product attention,计算query、key和value之间的相似度得分,然后对得分进行缩放和softmax操作以生成注...