Transformer升级之路:15、Key归一化助力长度外推 - 科学空间|Scientific Spaceskexue.fm/archives/9859 大体上,我们可以将目前Transformer的长度外推技术分为两类:一类是事后修改,比如NTK-RoPE、YaRN、ReRoPE等,这类方法的特点是直接修改推理模型,无需微调就能达到一定的长度外推效果,但缺点是它们都无法保持模型在...