打开上面的链接,找到要使用的模型并下载相应的版本,如BERT-wwm-ext, Chinese PyTorch版 接着解压到某个目录中,如D:\Program\pretrained_bert_models\chinese_wwm_ext_pytorch 将文件bert_config.json重命名为config.json,此时含有三个文件:config.json、pytorch_model.bin、vocab.txt fromtransformersimportBertTokenizer...
3 ⽂本特征提取 3.1 ⼀个句⼦的特征提取 inputs = tokenizer("中⽂", return_tensors="pt") # "pt"表⽰"pytorch"outputs = bert(**inputs)tokenizer会在⽂本开始和结尾分别添加[CLS]和[SEP]标记,返回给inputs的是⼀个字典:key value 'input_ids'tensor([[ 101, 704, 3152, 102]])...
3 文本特征提取 3.1 一个句子的特征提取 inputs = tokenizer("中文", return_tensors="pt") # "pt"表示"pytorch" outputs = bert(**inputs) tokenizer会在文本开始和结尾分别添加[CLS]和[SEP]标记,返回给inputs的是一个字典: key value 'input_ids' tensor([[ 101, 704, 3152, 102]]) 'token_type...