['input_ids', 'token_type_ids', 'attention_mask', 'task_ids'], num_rows: 29250 }) validation: [Dataset({ features: ['input_ids', 'token_type_ids', 'attention_mask', 'task_ids'], num_rows: 1510 }), Dataset({ features: ['input_ids', 'token_type_ids', 'attention_mask', ...
解决方法是在文本前面添加一个bos_token_id,其余不变再正常去取: output = model(input_ids=torch.tensor([model.config.bos_token_id]+input_ids), attention_mask=torch.tensor([1]+input_mask), output_attentions=True) logits = output.logits attentions = output.attentions prob = torch.softmax(logits...
在 MASK 的时候随机选择其中一个词的 span,把这个 span 下的每一个 token 的 token_id 都置为 [...
defencode(texts,tokenizer,maxlen=512):enc_di=tokenizer.batch_encode_plus(texts,return_attention_masks=False,return_token_type_ids=False,pad_to_max_length=True,max_length=maxlen)returnnp.array(enc_di['input_ids'])# tokenizedx_train=encode('text',tokenizer,maxlen=200)y_train ...
= self.tokenizer.pad_token_id).sum().item() - if token_count > self.max_length: - print("The text has been truncated.") - - return { - 'input_ids': inputs['input_ids'].squeeze(0), - 'attention_mask': inputs['attention_mask'].squeeze(0), - 'labels': torch.tensor(label,...
= self.tokenizer.pad_token_id).sum().item() - if token_count > self.max_length: - print("The text has been truncated.") - - return { - 'input_ids': inputs['input_ids'].squeeze(0), - 'attention_mask': inputs['attention_mask'].squeeze(0), - 'labels': torch.tensor(label,...