Transformer升级之路:10、RoPE是一种β进制编码 - 科学空间|Scientific Spaceskexue.fm/archives/9675 对关心如何扩展LLM的Context长度的读者来说,上周无疑是激动人心的一周,开源社区接连不断地出现令人振奋的成果。首先,网友@kaiokendev在他的项目SuperHOT中实验了“位置线性内插”的方案,显示通过非常少的长文本...
相比YaRN本身,YaRN的作者Bowen Peng的故事也许更加称得上“引人入胜”,他早前所提出的NTK-RoPE是RoPE的第一个免训练的长度外推方案,本系列的两篇博客《Transformer升级之路:10、RoPE是一种β进制编码》和《Transformer升级之路:11、将β进制位置进行到底》都直接受启发于它。虽然从目前来看,NTK-RoPE的效果不见得多...
发布于 2023-08-07 10:27・IP 属地广东 赞同24 分享收藏 写下你的评论... 2 条评论 默认 最新 数字炼金术 RePoPE中w的取值我的第一反应是最大训练长度,但实验结果表明1/4~1/2更好,是否和高位位置编码训练不充分有关?顺着这个思路,Leaky ReRoPE没有显著优势的原因可能也是内插的部分...