随后,自注意力子层的输出将传递给一个前馈神经网络(Feed-Forward Neural Network)。结构完全相同的前馈网络被独立地应用于每个位置。输入输出对理解数据流非常重要。编码器层的输入形状为 S x D(请参见下面的图表),其中 S 是源句子长度(例如,英语句子),而 D 是嵌入的维度(也是模型维度,论文中取值为 512)。