# 5.计算TF-IDFdefcomputeTFIDF(tf,idfs):tfidf={}#空字典forword,tfvalueintf.items():tfidf[word]=tfvalue*idfs[word]returntfidftfidfA=computeTFIDF(tfA,idfs)tfidfB=computeTFIDF(tfB,idfs)pd.DataFrame([tfidfA,tfidfB]) TF-IDF的值通常能够反映出词在文档中的重要程度。可以看出,docA的...
“我”在两篇文档中都出现了一次,所以TF=1/2。 “喜欢”在两篇文档中都出现了两次,所以TF=2/2。 “苹果”只在文档1中出现了一次,所以TF=1/2。 “香蕉”在两篇文档中都出现了两次,所以TF=2/2。 “橙子”只在文档2中出现了一次,所以TF=1/2。 然后,我们计算每个单词的逆向文档频率(IDF): “我”、“...
比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。 假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)则只有 0.7。
计算TF的步骤,由于消费者执行速度实在太慢(rabbit的admin界面对应的queue的state大部分情况下是idle状态),所以稍微优化了下。 目前主要是通过使用bulk-write来提速。另外,对于计算TF步骤而言,设计的时候是一次只对一篇文章进行计算,但是发现这样做太耗费与mongodb的连接了,所以改成了一次对100篇文章进行计算。 与消费者...
51CTO博客已为您找到关于机器学习TFIDF计算例题的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及机器学习TFIDF计算例题问答内容。更多机器学习TFIDF计算例题相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。