所以MT-DNN相对于bert的提升其实来自于 multi task 和 special output module 两个部分 SNLI 和 SciTail 结果在得到mult-task训练后的ckpt后,用这个weights去fine tune新的任务,结果和GLUE的保持一致,都有提升,且小数据集任务的提升更明显。 Domain 适应性结果...