我们分析了一个复杂的Transformer模型,该模型具有相对位置嵌入、多头软最大注意力机制以及带有归一化的前馈层。我们证明了,在交叉熵ICL损失下的梯度流将收敛到一个极限模型,该模型执行一种归纳头机制的广义版本,并通过所有构建模块的协调贡献生成一个学习到的特征。在极限模型中,第一注意力层充当复制器,将给定窗口内的...