本文介绍论文Revisiting Pre-trained Models for Chinese Natural Language Processing,论文提出了一种新的MASK方案,在许多NLP任务上,取得了SOTA结果。论文地址:arxiv.org/pdf/2004.1392 背景介绍 本文提出了MacBert, 一种利用近义词来对选定的词进行MASK,比如输入句子为:使用语言模型来预测下一个词的概率。使用Mac Maskin...
相比之下,MacBERT 沿用了 BERT 的整体架构,主要在训练目标上做了改进。 针对MLM 任务改进 Mac = MLM as correction,即校正的 mask 策略。 原始BERT 模型的缺点之一是预训练和微调阶段任务不一致,pretrain 有 [mask] 字符,而 finetune 没有。 MacBERT 用目标单词的相似单词,替代被 mask 的字符,减轻了预训练和...