TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下: 其中, 表示单词 在文档 中的词频,即出现的次数。 表示单词 的逆文档频率,即所有文档的数量除以包含单词 的文档的数量的对数。 的作用是降低常见单词的权重,提高稀有单词的权重。
* 进行规一化,每个特征除以这篇文本TFIDF值之和,构成新的TFIDF集 *@returnfilePath文件的特征-标准化TFIDF集 */publicMap<String,Double>getNormalTFIDF(){ Map<String,Double> tfidf=newHashMap<String,Double>(); Map<String,Double> weight=getTFIDF();doublesum=MathUtil.calSum(weight);//计算TFIDF...