使得bp只在x2分支上进行,x1分支只与x2分支同步更新(我感觉叫skip gradient之类的名字更合适,如果两个分支采取一样的结构,就不存在所谓的sg)。这里从直观上减少了模型的过平滑,因为bp对z1的影响大幅减弱了。另一个起作用的原因可能是pred(mlp)与main(backbone+mlp)的收敛速度不同,类比EM算法的解释也