print(corpus) # lda模型,num_topics设置主题的个数 lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=2) # 打印所有主题,每个主题显示5个词 for topic in lda.print_topics(num_words=5): print(topic) # 主题推断 print(
assignments[ii, 0] = np.random.randint(0, self.T) # 给第i个词随机赋予主题编号 doc = self.word_document[ii] # 获取第i个词的文档编号 # 如果该文档的第i个词属于第t个主题 则该文档的第t个主题个数加1 # 如果该词属于第t个主题, 则该词的第t个主题个数加1 C_dt[doc, assignments[ii, ...
LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 LDA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马...