而Mean-Teacher是每个mini-batch的更新都对整个model进行ensemble,直觉上效率更高。 weighted average的是整个model params,因此不仅是final layer的output被EMA,中间所有的layer都被EMA,因此Mean-Teacher拥有更好的intermediate representation,可以理解为中间的hidden representation更加robust吧 前面的两个优点让Mean-Teacher有...