方法很简单:GPT3初始化+对比学习(in-batch negative)+超大的batch(万级别)+海量数据(text用internet数据中相邻片段为正样本、code用开源代码中注释和code为正样本)。openai由此得到了real通用的embedding模型,可以同时做sentence embedding任务(相似度、可视化、分类等)+text search任务,且效果大多好过当时的SOTA。几点感...