首先用正则表达式可以自己完成;如果要利用已有工具,Python NLTK中的word_tokenize(),这个方式就是前文提到的Penn TreeBank语料库所使用的分词方法。听起来是不是很高大上,我是不会告诉你其实它也是正则表达式实现的,想知道具体实现,戳这里。分词其实主要干了这么几个事:1)将’分开. don't -> do n't, they'...
AppleTree Araisan arbeit areki arisa Arminda Arnkoln Arsinome Asgard Ashamed astroHero auauyutori Auron av avty awaji Awe awggw axelfem azc13 Azelf Azeprak azzs89 babakeicha babaw baboo83 Backwards bacteria Bainanu barcode barkbagarn baronh BasicsBot Bavarian bebygone befree Beifong ben0,mi...