2. NTK-aware Scaled RoPE 为了解决PI中出现的问题,NTK-aware提出的改进策略为:高频外推和低频内插。即:不是将RoPE的每个维度平均缩放一个因子S,而是通过减少高频的缩放和增加低频的缩放将插值压力分散到多个维度。 在讲NTK-aware之前,为了将PI和其NTK-aware,或者更广义上的多种内插方法联系起来,我们定义了如下...
前面两篇文章中,我分别介绍了RoPE的基本原理以及扩展其上下文长度的变体Position Interpolation (简称PI)。这边文章将会介绍一个新的变体NTK-aware interpolation,来解决PI的性能问题。 文章的核心贡献是提出了一种名为NTK-aware Scaled RoPE的方法,它能够和PI一样,高效地扩展基于RoPE(Rotary Position Embeddings)的模型的...
关键思想是,我们不是进行外推,而是直接将位置索引缩小(*不是插值位置嵌入,而是插值位置索引,这对于RoPE等位置编码更合适,并且可能需要较少的训练,因为没有添加可训练参数,使最大位置索引与预训练阶段的先前上下文窗口限制相匹配,至于理论依据就是可以在相邻的整数位置上插值位置编码,毕竟位置编码可以应用在非整数的位置...
在LLM上下文长度扩展方案中,NTK-aware interpolation提出了改进策略,以解决位置内插方案(PI)存在的问题。PI本质上是线性内插,将每个位置均匀压缩,可能导致高频信息损失。RoPE中,位置信息的周期和频率的关系揭示了低维高频、高维低频的特性。PI对所有维度进行平等缩放,这会使得高频低维度在插值后变得异...
【本期提要】:SuperCLUE-Open;文心盘古;chatlaw;LLM综述;NTK-Aware Scaled RoPE;10亿上下文;InternLM;GLM讲座;vllm讨论; 【本期贡献者】- 排名不分先后: 【主持人】:suc16、初七(后续每期由大家自行认领) 【编辑】:羡鱼(最好由主持人兼任) 【版块负责人】: (后续每期由大家自行认领) 【具体内容贡献者】:...
在这篇文章中,笔者提出了ReRoPE (Rectified RoPE),它同样是一种RoPE的后处理方案,实验结果显示它的不微调长度外推能力不仅明显超过了此前的NTK-aware Scaled RoPE,甚至还超过了之前专门设计的需要从零训练的HFWA。此外,不同于NTK-aware Scaled RoPE在超过某个长度后能力会大幅下降,ReRoPE似乎在任意长度下都表现良好...
NTK-aware Scaled RoPE:高频外推+低频内插 进制编码 代码实现 Position Interpolation存在的问题 在之前的一篇文章中讲了位置内插方案: Cyril-KI:LLM上下文长度扩展方案:Position Interpolation8 赞同 · 0 评论文章 PI本质上是一种线性内插,即把每个位置均匀压缩为之前的1S,其中S=L′L为扩展后长度和原始长度的比值...