词频-逆文档频率(TF-IDF)即通过综合考虑词的TF与IDF来计算特征词项的权重,其计算方法即特征词项的词频与逆文档频率的乘积。其计算公式: 对以上公式进行通俗解释:当词项只在少数几篇文档中多次出现时,权值最大,因为此时该词条能够对文档提供最强的区分能力;当词项在某篇文档中出现次数很少,或者在很多文档中出现,权重...