该论文中的R-Drop是构筑在Transformer框架上的,当然其他的特征提取器也可以充当这一角色。 同一个样本经过同一个模型两次,由于随机化的dropout作用,即达到了同一样本途经两个“不同模型”的目的【其实和SimCSE是类似的】,在有监督学习的前提下,模型的输出会形成两个分布P1(y|x)和P2(y|x)。 R-drop核心思想 同一个batc