本文介绍一种简单的一致性训练策略来正则化dropout,即R-Drop,它强制将dropout产生的不同子模型的输出分布一致,最小化两个子模型输出分布之间的双向KL-divergence,理论分析表明R-Drop减少了上述不一致性。 在5个广泛使用的深度学习任务上进行实验,包括神经机器翻译、抽象摘要、语言理解、语言建模和图像分类(共18个数据...