1、本发明的目的在于克服现有技术的不足,提供一种基于tf-idf和lda主题模型的语料集分类方法,基于tf-idf算法和lda主题模型对于语料信息进行主题分类,配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词,具有良好的主题分类能力,为关键信息的获取提供了有效条件。 2、本发明的目的是通过以下技术方案来实现的:...
基于LDA主题模型的TFIDF算法改进及应用-软件工程专业论文.docx,THE IⅣ田ROVEM[ENT AND APPLICArION 0F TFIDF ALGORITHM BASED 0N LDA TOPIC MODEL ABSTRACT The VSM,that is commomly used in topic founding,transforms the text of linguistics into the space vector
算法的改进策略分为两种:首先,通过构建LDA模型,得出概率分布函数θ和φ值,计算出语义影响力SI,提出SI-TFIDF算法;其次,主题-词的概率分布φ值中,判定最大的前K/1的φ值对应的特征词属于该主题,用以计算主题分布频率TDF即:语义分布,提出了TFIDF-TDF算法.实验采用sougou实验室的精简版数据,实验结果显示:两种改进的...