Transformer升级之路:9、一种全局长度外推的新思路 - 科学空间|Scientific Spaceskexue.fm/archives/9603 说到Transformer无法处理超长序列的原因,大家的第一反应通常都是Self Attention的二次复杂度。但事实上,即便忽略算力限制,常规的Transformer也无法处理超长序列,因为它们的长度外推性(Length Extrapolation)并不好...
Transformer升级之路:9、一种全局长度外推的新思路 - 科学空间|Scientific Spaces 本文介绍笔者构思的一种长度外推方案,它通过Window Attention与Full Attention的结合,在形成长度外推能力的同时,保留了全局依赖能力,应该是目前唯一一种可以用在生成模型上、具备全局依赖能力的长度外推方法。
我们知道,在 RoPE 中频率的计算公式为,底数默认值为 10000。目前 Long Context 的主流做法之一是,先在上用短文本预训练,然后调大并在长文本微调,其出发点是《Transformer升级之路:RoPE是一种β进制编码》里介绍的 NTK-RoPE,它本身有较好长度外推性,换用更大的...
本文介绍了我们自研的旋转式位置编码 RoPE 以及对应的预训练模型 RoFormer。从理论上来看,RoPE 与 Sinusoidal 位置编码有些相通之处,但 RoPE 不依赖于泰勒展开,更具严谨性与可解释性;从预训练模型 RoFormer 的结果来看,RoPE 具有良好的外推性,应用到 Tran...