MacBERT 将 MLM 任务作为一种语言校正方式进行了修改,减轻了预训练和微调阶段的差异。 下游各种中文NLP数据集的微调实验表明,MacBERT 可以在多数任务中获得显著收益。 通过分析消融实验,我们应该更多关注MLM任务,而不是NSP及其变体,因为类似NSP的任务并没有显示出彼此的压倒性优势。 这篇收录于 EMNLP 2020 子刊的论文,...
其中MacBERT表现最好。另外出乎意料的是,BERT采用Partial [MASK]还没有Random replace好。 消融实验 另外作者还做了MacBERT-large在不同数据集上的消融实验。最重要的是N-gram masking和近义词替换。如果看最后一列AVG的话,就是MACBERT-large最好,将SOP替换为NSP会降低性能。没有SOP也会降低性能。 论文说将来会研究...
MacBERT 将 MLM 任务作为一种语言校正方式进行了修改,减轻了预训练和微调阶段的差异。 下游各种中文NLP数据集的微调实验表明,MacBERT 可以在多数任务中获得显著收益。 通过分析消融实验,我们应该更多关注MLM任务,而不是NSP及其变体,因为类似NSP的任务并没有显示出彼此的压倒性优势。 这篇收录于 EMNLP 2020 子刊的论文,...
MacBERT:MLM as correction, 使用校正做为Mask的语言模型, 通过用相似的单词mask,减轻了预训练和微调阶段两者之间的差距测试MacBERT和BERT的结果: 测试了MSRA 中文命名实体识别:BERT的结果f1 score 是0.9459358687546606MacBERT的结果:eval_f1 = 0.9520426287744227 一、简介 双向编码器transformer(BERT)的表示已在各种NLP任...
•我们提出了一种新的称为MacBERT的预训练语言模型,该模型通过用相似的单词mask,减轻了预训练和微调阶段两者之间的差距,这已被证明对下游任务是有效的。 •为了进一步加快对中文NLP的研究,我们向社区创建并发布了中文预训练语言模型系列。 二、相关工作