像Transformer这样的纯Attention模型,它是全对称的,即对于任意的m,n,都有 f(⋯,xm,⋯,xn,⋯)=f(⋯,xn,⋯,xm,⋯) 这就是我们说Transformer无法识别位置的原因——全对称性,简单来说就是函数天然满足恒等式f(x,y)=f(y,x),以至于我们无法从结果上区分输入是[x,y]还是[y,x]。 因此,我们要做...