Transformer升级之路:18、RoPE的底数设计原则 - 科学空间|Scientific Spaceskexue.fm/archives/10122 我们知道,在RoPE中频率的计算公式为θi=b−2i/d,底数b默认值为10000。目前Long Context的主流做法之一是,先在b=10000上用短文本预训练,然后调大b并在长文本微调,其出发点是《Transformer升级之路:10、RoPE是...
本文提出了HWFA与ReRoPE的组合使用方式,小规模的实验结果显示,这种组合能够在不损失训练效果的同时,达到近乎最佳的长度外推效果,并且得益于HFWA的设计,还可以明显地降低推理成本,有效地缓解了ReRoPE原本的推理成本增加的缺点。 发布于 2023-08-24 18:46・IP 属地广东 ...