此外,同尺寸模型之间的蒸馏往往还能提升一点效果,所以我们蒸馏后的RoFormer-Sim的检索效果,其实还比直接训练得到的Sentence-BERT效果要好些。 效果演示 我们把用标注数据训练好的RoFormer-Sim开源如下(文件名带-ft的权重):https://github.com/ZhuiyiTechnology/roformer-sim 下面是《无监督语义相似度哪家强?我们做了个比...
Rotary Transformer is an MLM pre-trained language model with rotary position embedding (RoPE). The RoPE is a relative position encoding method with promise theoretical properties. The main idea is to multiply the context embeddings (q,k in the Transformer) by rotation matrices depending on the ab...
我们把用标注数据训练好的 RoFormer-Sim 开源如下(文件名带-ft的权重): https://github.com/ZhuiyiTechnology/roformer-sim 下面是 无监督语义相似度哪家强?我们做了个比较全面的评测 中的几个任务的测试结果(测试集): 当然,经过了监督训练,有提升是必然的,这个表格的意义参考不大。但对于用户来说,有现成的模型...
