[2024-09-06 17:47:46.893] [warn] [PyE] Error: We couldn't connect to 'https://huggingface.co' to load this file, couldn't find it in the cached files and it looks like THUDM/chatglm3-6b is not the path to a directory containing a file named tokenization_chatglm.py. 使用了...
ChatGPT的最小复现实践 文本生成系列 行文思路 分词算法与分词器作为LLM(大语言模型)的基础组件,作用相当于文本与模型的桥梁。因此作为LLM基础组件系列的开篇,本文将对主流的分词算法和分词器进行全面的梳理和介绍。 第1章介绍主流的分词算法,首先讨论从word/char到subword的不同粒度,然后介绍主流的三种subword分词算法...
运行后会得到tokenizer.model和tokenizer.vocab两个文件。 我们来看看tokenizer.vocab里面是什么: 代码语言:javascript 复制 <unk>000foo0bar0萧炎-0..-1▁“-2也是-3便是-4了一-5。”-6 除了一些特殊符号外,还有我们自定义的foo和bar,其余的一些词是BPE训练得到,具体什么是BPE算法这里不作展开了。 Part4怎...