word_tokenize是什么

2025-01-18 22:36:04

拼音 [ 拼音 ]

tokenize embeding word2wec...词表,词嵌入,分词...都是干什么的...

分词分词是将一个句子拆分成一个个单词/短语,这些单词/短语称为token,分词被叫做tokenize。 tokenize的粒度有word/char/subword三个层级。一个token并不一定是一个单词,也可能是一个后缀、前缀、字符等。比如对于句子'I love nature language processing',分词后是'I', 'love', 'nature', 'language', 'proce...
python 下载什么,以使nltk,tokenize.word_tokenize工作? _NULL123

你说得对。您需要Punkt Tokenizer模型。它有13 MB和nltk.download('punkt')应该做的伎俩。