Transformer升级之路:12、无限外推的ReRoPE? - 科学空间|Scientific Spaceskexue.fm/archives/9708 自从在《Transformer升级之路:11、将β进制位置进行到底》中引入混合进制的思路进一步推广了NTK-aware Scaled RoPE后,笔者感觉类似思路的效果已经达到了上限,想要更大幅度的提升就必须另辟蹊径了。这时候笔者想起了此...
Transformer升级之路:12、无限外推的ReRoPE? - 科学空间|Scientific Spaces 在这篇文章中,笔者提出了ReRoPE (Rectified RoPE),它同样是一种RoPE的后处理方案,实验结果显示它的不微调长度外推能力不仅明显超过了此前的NTK-aware Scaled RoPE,甚至还超过了之前专门设计的需要从零训练的HFWA。此外,不同于NTK-aware Sca...
本文介绍了我们自研的旋转式位置编码 RoPE 以及对应的预训练模型 RoFormer。从理论上来看,RoPE 与 Sinusoidal 位置编码有些相通之处,但 RoPE 不依赖于泰勒展开,更具严谨性与可解释性;从预训练模型 RoFormer 的结果来看,RoPE 具有良好的外推性,应用到 Tran...