TF-IDF的意思是:如果一个单词(文本标识符)出现在一个文档中的次数越多,但是却很少出现在其他文档中,那么就可以假设这个单词在这个特定的文本中的分量是很重要的。具体的计算公式如下: IDF = total number of documents (文本集含有的文本总数) / the number of documents contain a term (含有特定单词的文本数)...
* 进行规一化,每个特征除以这篇文本TFIDF值之和,构成新的TFIDF集 * @return filePath文件的特征-标准化TFIDF集 */ public Map<String,Double> getNormalTFIDF(){ Map<String,Double> tfidf=new HashMap<String,Double>(); Map<String,Double> weight=getTFIDF(); double sum=MathUtil.calSum(weight);/...