• 每一层的输出都与原始输入相加,这是残差连接的概念,允许信号直接从较浅的层传递到较深的层,解决了深层神经网络中的梯度消失问题。 整个Transformer模型就是由多层这样的Encoder和Decoder堆叠而成,每一层都能捕获输入序列的不同层级抽象特征,从而实现高效且强大的序列到序列学习任务。