model_checkpoint = 'distilbert-base-uncased' tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, add_prefix_space=True) 搜索拥抱面但尚不清楚它是什么。 级Tokenizers.pre_tokenizers.bytelevel ADD_PREFIX_SPACE(bool,可选,默认为true) - 如果还没有一个,是否在第一个单词中添加一个空间。这...
在创建快速tokenizer时,确保传递add_prefix_space=True(如果需要的话),以保持与慢速tokenizer相同的分词行为。 按照这些步骤,你应该能够成功地将慢速tokenizer迁移到快速tokenizer,同时保持add_prefix_space的设置。如果你遇到任何问题,建议查阅Hugging Face的官方文档或社区论坛以获取更多帮助。