分词 分词是将一个句子拆分成一个个单词/短语,这些单词/短语称为token,分词被叫做tokenize。 tokenize的粒度有word/char/subword三个层级。 一个token并不一定是一个单词,也可能是一个后缀、前缀、字符等。比如对于句子'I love nature language processing',分词后是'I', 'love', 'nature', 'language', 'proce...
你说得对。您需要Punkt Tokenizer模型。它有13 MB和nltk.download('punkt')应该做的伎俩。