自行编写TF-IDF算法和Jieba中TF-IDF算法结果比较 任务:对10个战略新兴产业描述文档提取特征词,从而建立10个产业的特征,要求是10个产业特征词区分度和代表度越大越好。采用TF-IDF算法对文档提取特征词,一开始使用jieba自带tf-idf算法,结果不太理想,见下图,每一列为10个产业提取的特征词,红色是之间有重复的情况。分...
技术标签:PythonjiebaTF-IDF关键词实现 jieba-基于 TF-IDF 算法的关键词抽取 通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词...
1 import jieba 2 import sys 3 import jieba.analyse 4 from optparse import OptionParser 5 tfidf = jieba.analyse.extract_tags 6 7 with open('lagoujobdatails.txt',encoding='utf-8') as f: 8 tmp_line=f.read() 9 jieba_cut=jieba.cut(tmp_line) 10 ans=''.join(jieba_cut) 11 text=...
代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py 需要将这个文件保存下来,然后在cmd中运行,这样就可以运行成功了