1.对于文本型数据的分类处理(或者其他的处理),根据ik和jcseg等分词器先对它们进行分词处理之后,大家都知道,计算机是处理不了汉字的,对于文本型的词我们如何才能让计算机处理呢?我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述,网上的资源非常多,这里我主要来看看是如何实现的。 2.测试数据的...
doc1 TFIDF1/5*log(4/3)1/5*log(4/4)1/5*log(4/3)2/5*log(4/4)00 doc2 TFIDF2/6*log(4/3)2/6*log(4/4)1/6*log(4/3)1/6*log(4/4)00 doc3 TFIDF00003/4*log(4/2)1/4*log(4/2) doc4TFIDF02/3*log(4/4)01/3*log(4/4)00 1.4实现tf-idf 人肉完成,相对来说,tf-...