1.语料清洗 爬取的内容去除标签,去掉注释等。。。; 把语料中的不需要的文本部分删除掉,包括标题,摘要,小标题等等。。 2.分词 我们不对一大块文本进行处理,我们希望文本的最小单位粒度是词语,因此借助分词工具对文本进行分词。 常见的分词算法就是: 1. 基于字符串匹配的分词 2. 基于理解的分词 3. 基于统计的...
1.在这个文件夹里面新建一个文本文件.txt 2.在文本里面输入 dir *.* /b> 文本档案.txt 1. 3.然后保存退出,右键这个文本文件,重命名,修改文件后缀。从 'txt' 改为 ‘bat’ 。这样它就变成了脚本文件。我把它名称命名为‘’歌单‘’ (如果看不到文件后缀名需要在文件夹里面设置一下,不会设置就去百度如何...
python清洗将文本数据去重 本次开启一个新栏目,主要是使用Python的一些小技巧和方法,去简化生活中的一些重复性的劳动。这些py文件可以当做脚本使用,代码写好后可以全自动,点一下运行就能使用。这些技巧和方法不涉及数据科学领域,没有太大难度,只需要有Python