图1是 GPT-4o 词表里面最长的中文词,图2是双字中文词,图3是 GPT-4o 把 “给主人留下些什么吧” 当作一个 token,认为是夸奖的意思。图4是比较正常的 GPT-4 词表(cl100k_base),虽然 tokenizer 对中文不太友好,中文占用 token 数较多,但至少没有太多奇奇怪怪的 token。 发布于 2024-05-17 23:20