每个句子中词语的 TF : IDF: 其中|D|代表文档的总数,分母部分 |Di|则是代表文档集中含有 i 词的文档数。原始公式是分母没有 +1 的,这里 +1 是采用了拉普拉斯平滑,避免了有部分新的词没有在语料库中出现而导致分母为零的情况出现。 最后,把 TF 和 IDF 两个值相乘就可以得到 TF-IDF 的值。即: 把每个...