由于tokenizer的vocab_size是从pretrained model读取来的,而config的vocab_size是config.json中读取来的,而max_input_id表示加载到的数据中最大的词表数量 而bert base uncased的"vocab_size"为 30522,bert chinese的仅为21128,实际加载的各类训练数据等语料数据包含的vocab种类高达29486种,因此说明bert chinese的语料...