2.roberta-wwm 2.1 wwm策略介绍 2.2 roberta-wwm 3.macbert 参考 1.roberta 从模型上来说,RoBERTa基本没有什么太大创新,主要是在BERT基础上做了几点调优: 1.1 Masking策略——静态与动态 原始静态mask:BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复),后续的每个训练步都采用相同的ma...