因此,PI会在扩展倍数特别大时显著降低位置编码区分不同位置的能力,这种现象称之为高频信息的损失。 2. NTK-aware Scaled RoPE 为了解决PI中出现的问题,NTK-aware提出的改进策略为:高频外推和低频内插。即:不是将RoPE的每个维度平均缩放一个因子S,而是通过减少高频的缩放和增加低频的缩放将插值压力分散到多个维度。
NTK-aware Scaled RoPE NTK-aware Scaled RoPE 是一种针对PI遇到的问题的改进方法,它通过高频外推和低频内插来解决 PI 的问题。具体来说: - 高频外推:对高频维度(索引位置靠前)进行较小的缩放。 - 低频内插:对低频维度(索引位置靠后)进行较大的缩放。 NTK-aware 通过调整 RoPE 中的频率参数 θi 来实现上...
关键思想是,我们不是进行外推,而是直接将位置索引缩小(*不是插值位置嵌入,而是插值位置索引,这对于RoPE等位置编码更合适,并且可能需要较少的训练,因为没有添加可训练参数,使最大位置索引与预训练阶段的先前上下文窗口限制相匹配,至于理论依据就是可以在相邻的整数位置上插值位置编码,毕竟位置编码可以应用在非整数的位置...
【talk视频】:【【OpenLLM Talk 003】SuperCLUE-Open;文心盘古;chatlaw;LLM综述;NTK-Aware Scaled RoPE;GLM讲座】 【精准空降到 10:10】 注意事项 【talk模板】:zhuanlan.zhihu.com/p/64;可参考模板进行贡献 【小要求】:版块负责人认领之后尽量准时参加,其余同学可自行选择是否参与; 本周新闻 【本周新闻】:...
在这篇文章中,笔者提出了ReRoPE (Rectified RoPE),它同样是一种RoPE的后处理方案,实验结果显示它的不微调长度外推能力不仅明显超过了此前的NTK-aware Scaled RoPE,甚至还超过了之前专门设计的需要从零训练的HFWA。此外,不同于NTK-aware Scaled RoPE在超过某个长度后能力会大幅下降,ReRoPE似乎在任意长度下都表现良好...
NTK-aware Scaled RoPE:高频外推+低频内插 进制编码 代码实现 Position Interpolation存在的问题 在之前的一篇文章中讲了位置内插方案: Cyril-KI:LLM上下文长度扩展方案:Position Interpolation8 赞同 · 0 评论文章 PI本质上是一种线性内插,即把每个位置均匀压缩为之前的1S,其中S=L′L为扩展后长度和原始长度的比值...