3. 生成词云 通过词云可以直观地看到文本中各个词汇的频率。我们可以使用wordcloud库来生成词云,以下是代码示例: pipinstallwordcloud 1. fromwordcloudimportWordCloudimportmatplotlib.pyplotasplt# 生成词云wordcloud=WordCloud(width=800,height=400,background_color='white').generate(' '.join(filtered_words))# 显示...
中文分词主要使用的是Python+Jieba分词工具,同时导入自定义词典dict_baidu.txt,里面主要是一些专业景点名词,如"黔清宫"分词"黔/清宫",如果词典中存在专有名词"乾清宫"就会先查找词典。 结巴中文分词涉及到的算法包括: (1) 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)...