在 MASK 的时候随机选择其中一个词的 span,把这个 span 下的每一个 token 的 token_id 都置为 [...
= self.tokenizer.pad_token_id).sum().item() - if token_count > self.max_length: - print("The text has been truncated.") - - return { - 'input_ids': inputs['input_ids'].squeeze(0), - 'attention_mask': inputs['attention_mask'].squeeze(0), - 'labels': torch.tensor(label,...
= self.tokenizer.pad_token_id).sum().item() - if token_count > self.max_length: - print("The text has been truncated.") - - return { - 'input_ids': inputs['input_ids'].squeeze(0), - 'attention_mask': inputs['attention_mask'].squeeze(0), - 'labels': torch.tensor(label,...