Temporal Ensembling对于历史步的输出做平滑这个操作的可解释性明显比mean-teacher直接对model参数做指数移动平均这个操作的可解释性要强,因为众所周知model的参数更新应该是依赖于从后到前的梯度反向传播来实现的,直接根据另一个model(student)的参数对于本model(teacher)参数进行更新计算确实比较反直觉,不过半监督的目的其...
(注意是每个epoch,而不是每个batch,来改变一次伪标签,这种改变其实非常缓慢。之后的工作比如说mean teacher也指出,这个方法对于大数据集来说是非常难处理的) 注意上述伪代码,\tilde{z}表示N个数据的伪标签,每个伪标签\tilde{z_i}是一个C维向量,作者的意思是在minibatch的循环就能够完成对\tilde{z}的更新(每次循...
Mean Teacher 为了克服temporal ensemble的局限性,我们提出去EMA 模型的weights而不是predictions,这就需要引入teacher-student的 知识蒸馏结构, 由于teacher 模型是student模型的weights的指数移动平均,我们称之为mean teacher(如下图)。 这块儿的理解,确实还是得从PI model 开始看才会比较容易get 到mean teachers 其中的...