二、抽取正文 WikiExtractor:是意大利人用Python写的一个维基百科抽取器,使用非常方便。用于从原始的xml文件中提取出标题和正文。 地址:https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py 在本地新建一个脚本,将github上的代码全部复制过来就好了,再将这个WikiExtractor.py文件和原始数据文件放到一个...