TF-IDF算法的基本原理是一个词在文档中出现的频率(词频,TF)越高,说明该词越能代表该文档的内容,其在所有文档中出现的概率(逆文档频率,IDF)越低,则说明该词越重要。 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词...