在Transformer模型的训练和推理过程中,确实存在两种模式:训练模式和推理(生成)模式。这两种模式在处理解码器的输入时有所不同。训练模式在训练模式下,模型通常采用真正的目标序列(即真实的标签)作为解码器输入,以便学习目标的条件分布。这种方法称为“教师强制”(Teacher Forcing)。教师强制的好处是,它加速了训练收敛,并...