2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956 ⚖️ 模型对比 说明: s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等 s2p,
lcqmc口语149,226文本分类相似良Ming Xu哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同是否是是https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train是 ...
数据集选择,选择开源在 HuggingFace 上的 6 种文本分类数据集,包括新闻、电商评论、股票评论、长文本等 评测方式,使用 MTEB 的方式进行评测,报告 Accuracy。 text2vecm3e-smallm3e-baseopenai TNews0.430.44430.48270.4594 JDIphone0.82140.82930.85330.746
2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956 ⚖️ 模型对比 说明: s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等 s2p, 即 sentence to passage ,...
2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956 参数数量维度中文英文s2ss2ps2c开源兼容性s2s Accs2p ndcg@10 m3e-small24M512是否是否否是优0.57550.7262
2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956 ⚖️ 模型对比 说明: s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等 ...
lcqmc 口语 149,226 文本分类 相似 良 Ming Xu 哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同 是 否 是 是 https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train 是 paws-x 百科 23,576 ...
2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956 ⚖️ 模型对比 说明: s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等 ...
lcqmc 口语 149,226 文本分类 相似 良 Ming Xu 哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同 是 否 是 是 https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train 是 paws-x 百科 23,576 ...
lcqmc 口语 149,226 文本分类 相似 良 Ming Xu 哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同 是 否 是 是 https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train 是 paws-x 百科 23,576 ...