Transformer-XL通过设置memory-span使得当前max_len窗口中的每个token都能attention到前max_len个token,因此Transformer-XL在每前进一步时,只用计算当前位置的token的隐层表示,同时在更新梯度时,只更新当前窗口内的梯度,从而实现了输出隐层表示的更长上下文关联,和高效的编码速度。 Figure 2: Transformer-XL model with ...