对于第一个方程,代入n=m得r_m^2=R_0,即r_m是一个常数,简单起见这里设为1就好;对于第二个方程,代入n=0得\phi_m - \phi_0=\Phi_m,简单起见设\phi_0=0,那么\phi_m=\Phi_m,即\phi_m - \phi_n=\phi_{m-n},代入n=m-1得\phi_m - \phi_{m-1}=\phi_1,那么\{\phi_m\}只是一个...
首先,网友 @kaiokendev 在他的项目 SuperHOT[1]中实验了“位置线性内插”的方案,显示通过非常少的长文本微调,就可以让已有的 LLM 处理 Long Context。 几乎同时,Meta 也提出了同样的思路,带着丰富的实验结果发表在论文《Extending Context Window of Large Language Models via Positional Interpolation》[2]上。惊喜...
1} \end{pmatrix} + \begin{pmatrix}-q_1 \\ q_0 \\ -q_3 \\ q_2 \\ \vdots \\ -q_{d-1} \\ q_{d-2} \end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_0 \\ \sin m\theta_0 \\ \sin m\theta_1 \\ \sin m\theta_1 \\ \vdots \\ \sin m\theta_{d/2-1} \...