中文训练集,M3E 在大规模句对数据集上的训练,包含中文百科,金融,医疗,法律,新闻,学术等多个领域共计 2200W 句对样本,数据集详见M3E 数据集 英文训练集,M3E 使用 MEDI 145W 英文三元组数据集进行训练,数据集详见MEDI 数据集,此数据集由instructor team提供 指令数据集,M3E 使用了 300W + 的指令微调数据集,...