new_tokenizer = Tokenizer.from_file("human2_formal.json") #或者下面方法 from transformers import GPT2TokenizerFast tokenizer = GPT2TokenizerFast(tokenizer_object=new_tokenizer) #model = GPT2LMHeadModel.from_pretrained("gpt2") #这个是加载预训练模型,英文的,这里是dna语言:) config = AutoConfig.fr...
model.push_to_hub("dnagpt/human_gpt2-v1",use_auth_token='hf_***') 注意,分词和模型要上传到一个网上目录,这样就能用一个命名空间。 然后是使用此模型进行下游任务,测试的是一个dna序列的2分类问题,具体如下: 首先是加载分词器和模型: from transformers import AutoTokenizer, AutoModel tokenizer = Au...