文本获取:ThreeKingdoms.txt(三国演义.txt):https://python123.io/resources/pye/threekingdoms.txt 因为文本是复制到txt文档中的,第一次提示编码错误:'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte。 将文本打开另存为utf-8编码格式即可 1 2 3 4 5 6 7 8 9 10 11 ...
2.人物出场次数进行数据存储和可视化 #导出数据fo=open("人物出场次数.txt","a",encoding='utf-8')foriinrange(num):word,count=items[i]word=str(word)count=str(count)fo.write(word)fo.write(':')#使用冒号分开fo.write(count)fo.write('\n')#换行fo.close()#关闭文件#将txt文本里的数据转换为字...
import jieba txt = open('C:/Users/eternal/Desktop/threekingdoms.txt','r',encoding='UTF-8').read() #提前修改txt文件编码格式utf-8 excludes = {'将军','却说','荆州','二人','不可','不能','如此'} #错误的名字 words = jieba.lcut(txt) print(words) counts = {} for word in words:...
上述代码中,首先定义了一个名为get_characters的函数,该函数用于从文件中读取《三国演义》的内容,并返回所有人物的列表。 在代码中,我们首先打开名为sanguo.txt的文件,该文件包含了《三国演义》的文本内容。然后,我们逐行读取文件内容,并使用strip方法去除每行开头和结尾的空白字符。如果当前行不为空行,那么我们使用sp...
文件是存储在辅助器上的数据序列,文件展现形态主要有两种:文本文件和二进制文件。文本文件是由单一特定编码组成的文件,如UTF-8编码。二进制文件直接由比特0和1组成,没有统一字符编码。 # 文本形式打开文件 tf = open("f.txt", "rt") # 以文本打开f.txt文件 print(tf.readline()) # 读取一行内容 tf.close...
import jiebatxt = open("三国演义.txt", "r", encoding="gb18030").read()这里的编码格式一开始我是按照书上‘utf-8’格式读取,发现会乱码,后来在pycharm里面用‘gbk’格式能读出文本内容,但是个别字符识别不出来,就去百度到“gb18030”比gbk范围更广,这里我成功读入。如果你此时还是读入不了可以写成下面...
为了方便大家,我已经准备好了《三国演义》的 txt 文件,UTF8 和 GBK 的版本都有,公众号里回复关键字三国 其实我们之前做过一些类似的案例,比如:数据分析:当赵雷唱民谣时他唱些什么? 在知乎上逛一逛,你会发现现在很多人写的有关Python的文章都在用这个套路: ...
就是创建两个文件夹,也可以手动操作,然后将《边城》txt文件放到input文件夹下,如下所示: 开始初始化: python-mgraphrag.index--init--root./biancheng 完成后,会出现一些文件,如下所示: 在.env文件中输入OpenAI Api Key,如下所示: 在settings.yaml文件中做一些配置,在这里我的配置如下: ...
txt =open("三国演义.txt","r", encoding="gb18030").read() 这里的编码格式一开始我是按照书上‘utf-8’格式读取,发现会乱码,后来在pycharm里面用‘gbk’格式能读出文本内容,但是个别字符识别不出来,就去百度到“gb18030”比gbk范围更广,这里我成功读入。如果你此时还是读入不了可以写成下面形式 ...
然后就是读取实现准备好的《三国演义》书籍txt文档格式,使用jieba库对文档内容进行处理 #-*-coding:utf8-*-#encoding:utf-8importjieba#倒入jieba库importosimportsysfromcollectionsimportCounter#分词后词频统计frompyecharts.chartsimportWordCloud#词云path=os.path.abspath(os.path.dirname(sys.argv[0])) ...