相比之下,我们的模型Conan-embedding-v2成功地将所有语言的嵌入整合到一个统一的分布中,展示了其在创建更一致的多语言表示方面的有效性。 动态难负例挖掘 该策略的详细介绍请参考我们Conan-V1的技术报告Conan-Embedding-V1。 数据 为了实现Conan-embedding-v2的多语言能力,我们收集了大量多样化的数据用于弱监
Conan-embedding-v2训练过程分为四个阶段,每个阶段在数据格式和损失函数上均有所不同。在大语言模型(LLM)训练阶段(第1和第2阶段),我们加入了嵌入数据,以更好地使LLM与嵌入任务对齐。在弱监督训练阶段,我们使用与LLM监督微调(SFT)相同的配对数据,并应用软掩码来弥合LLM与嵌入模型之间的差距。在监督训练阶段,受益于...
Embedding模型作为RAG中检索召回的重要一环。我们团队在2024年8月底发布了中文Embedding模型Conan-Embedding-...