其一,提出了一种结合TF-ICF模型和 Word2Vec模型的短文本特征提取算法,并基于此,提出一种利用余弦相似度算 法重构TextRank边权关系的方法;其二,本文提出了分别引入主题因素调节因 子,文本长度因素调节因子,以及利用MMR算法,对TextRank自动摘要算法 最终短文本权重进行调节的方法,有效改善TextRank自动摘要算法忽视主题, ...
本发明的目的在于克服上述已有技术的不足,提出一种基于word2vec和textrank的科技文本关键词提取方法,通过word2vec获取词向量,进而计算向量的余弦相似度来代替词共现次数改进textrank算法,以满足目前大数据时代下自然语言处理的各个领域对文本关键词精准提取的需求。具体内容如下: 1.科技语料的词向量训练 1.1科技语料抓取...