但summarization(摘要)任务上需要考虑的是成篇章级别,并且长距离依赖,这时单靠self-attention建模依赖关系可能仍显不足,而这时候lstm的优势反而凸显出来 Self-Attention 可以使任意两个 token 间的依赖计算变为常数,长距离依赖上 Self-Attention 是强于 RNN 结构的。要说问题,出也是出在 positional embedding 上,很多...
尽管 LSTM 不能很好地捕获长范围的依赖关系,但却可以高效地捕获短范围的依赖关系。 该研究提出了一个简单但强大的架构改变:在 GTrXL 顶部添加了一个 LSTM 层,同时在 LSTM 和 GTrXL 之间有一个额外的门控残差连接,由 GTrXL 的输入进行调制。此外,该架构还有一个包含从 transformer 输入到 LSTM 输出的跳跃连接。...