每个解码器层将在“encoder-decoder attention”层中使用编码器传过来的K和V,这有助于解码器将注意力集中在输入序列中的适当位置:完成编码阶段后,我们开始进行解码阶段。在解码阶段每一轮计算都只往外蹦一个输出,在本例中是输出一个翻译之后的英语单词。