Dynamic NTK-Aware插值法 NTK并不是什么高深的概念,从两个方面讲 动机:线性插值改的是公式mθi=m∗α−2id里代表位置的m的值,这样就会带来一个问题,见图1,对于高频区域,插值法会令高频区域每个位置的值很密集,而低频位置的区域位置很稀疏。 base下面用α来替代了,正好也符合各个算法实现的变量名 方法:只需
比如位置插值 ( Position Interpolation, PI ),通过对RoPE进行轻微修改,并对少量数据进行微调,从而扩展上下文长度 作为一种替代方案,Reddit一网友bloc97通过该帖子,提出了“NTK-aware”插值方法,该方法考虑到高频信号的损失 此后,对“NTK感知”插值提出了两项改进...