一、场景 传统的General Text embedding model虽然有的input length 也很长 有8k,但是在计算两段中文长文本的效果不是太ok,比如beg-m3、gte-large、openai的text- embedding-3-large... 具体的模型可以在CMTEB榜单找到 LLM的参数量大,比如Qwen2.5-gte,这种模型参数量大,可能效果会好?但是目前官方给出的例子都是...
1.一种基于roberta模型的长文本语义相似度计算方法,其特征在于,包括:步骤一,进行数据预处理,首先对两个文本进行分词,然后过滤掉停用词,再将过滤后的词进行合并,最后将两个文本按照标点符号进行分句;步骤二,构建基于roberta的句子语义相似度计算的模型;步骤三,训练和评估基于roberta的句子语义相似度计算的模型;步骤四,...
专利权项:1.一种基于对比学习的长文本语义相似度计算方法,其特征在于:包括如下步骤:步骤1、对需要进行文本语义评价的领域,分别建立领域数据库和通用数据库;首先将主题、短语、文章段落标题类别分别加入到数据库包含的数据表对应的字段中;其次,建立通用数据库,作为领域数据库的对比数据,通用数据要求包含少量的领域信息,...
本发明涉及一种基于联合特征提取与对比学习的长文本相似度计算方法,属于自然语言处理技术领域.本发明将长文本对分割为句子的集合;在词汇粒度以及句子粒度上进行多特征提取;根据特征提取后得到的信息,获得相较于长文本较短的语义文本表示;将得到的文本放入BERT预训练模型,使用滑窗重叠的方法得到语义向量表示;构造正负例,...
文本相似度确定方法,装置,存储介质和电子设备 本公开涉及一种文本相似度确定方法,装置,存储介质和电子设备,该方法包括:根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量,确定每个待测文本的文本向量;根据每个词语的词向量与文本向量的相似度以及词语数量,确定每个待测文本的语义发散度... 赵耕弘,...
摘要: 本发明提出了一种基于信息抽取和图模型的法律长文本相似度计算方法,所述方法包括以下步骤:从法律文本中抽取出实体和行为;用文本分类从行为中筛选出过错行为;将两个长文本中抽取出的实体和过错行为构成图模型;根据图模型中的结构和语义信息求出两个长文本的相似度。类案类判的目的为法官手头正在处理的案件寻找...
摘要 已有的文本相似度计算方法处理长短语时只考虑比较其核心词部分,但核心词的修饰词也会对语义造成一定影响,导致文本相似度计算结果不够准确。为此提出基于多谓词语义框架的长短语文本相似度计算,将文本内容进行多谓词语义框架填充,利用...展开更多 The existing methods for calculating the similarity of text only ...
Atitit nlp 文本相似性计算 目录 1. 原理编 1 1.1. 4.1基于拼音相似度的汉语模糊搜索算法 2 1.2. (1)最长公共子串(基于词条空间) 2 1.3. 2 1.4. (2)最长公共子序列(基于权值空间、词条空间) 2 1.5. 2 1.6. (3)最少编辑距离法(基于词条空间) 2 ...
本发明公开了一种基于对比学习的长文本语义相似度计算方法,属于人工智能,自然语言处理技术领域.本发明主要解决的技术问题为小样本场景下长文本语义匹配问题.首先通过爬虫,人工采集手段构建通用,领域数据库.其次使用领域数据库和通用数据库中包含的主题,标题,关键短语等篇章结构信息构建模型,通过有监督的文本表示学习方法对比...