Transformer升级之路:12、无限外推的ReRoPE? - 科学空间|Scientific Spaceskexue.fm/archives/9708 自从在《Transformer升级之路:11、将β进制位置进行到底》中引入混合进制的思路进一步推广了NTK-aware Scaled RoPE后,笔者感觉类似思路的效果已经达到了上限,想要更大幅度的提升就必须另辟蹊径了。这时候笔者想起了此...
Transformer升级之路:12、无限外推的ReRoPE? - 科学空间|Scientific Spaces 在这篇文章中,笔者提出了ReRoPE (Rectified RoPE),它同样是一种RoPE的后处理方案,实验结果显示它的不微调长度外推能力不仅明显超过了此前的NTK-aware Scaled RoPE,甚至还超过了之前专门设计的需要从零训练的HFWA。此外,不同于NTK-aware Sca...
研究方向|NLP、神经网络 上一篇文章中,我们对原始的 Sinusoidal 位置编码做了较为详细的推导和理解,总的感觉是 Sinusoidal 位置编码是一种“想要成为相对位置编码的绝对位置编码”。 一般来说,绝对位置编码具有实现简单、计算速度快等优点,而相对位置编码则直接...
本文总结了增强Transformer的长度外推能力的相关工作,其中包含了一个简单但强大的基线方案,以及若干篇聚焦于长度外推性的相关工作,从中我们可以发现,这些工作本质上都是基线方案——局部注意力的变体,局部注意力是长度外推的关键环节之一。 发布于 2023-01-12 17:07・IP 属地广东 ...
本文介绍笔者构思的一种长度外推方案,它通过Window Attention与Full Attention的结合,在形成长度外推能力的同时,保留了全局依赖能力,应该是目前唯一一种可以用在生成模型上、具备全局依赖能力的长度外推方法。 发布于 2023-05-12 17:21・IP 属地广东 赞同 6 ...