这个公式跟MeanTeacher中参数的指数移动平均(EMA)公式也很类似: θt=αθt−1′+(1−α)∗θt 原文总结说,基于对比的自监督学习其实就是训练一个编码器然后在一个大的字典里确保和对应的键是相似的,和其它的是不相似的。所以字典的大小就成了关键,传统的方法是字典的大小就是等于mini_batch的大小,但是...
具体地,对于key的encoder,在分发到多个GPUs之前,首先shuffle当前mini-batch内样本的顺序(encoding之后顺序再变回去),而送到query encoder的样本则顺序不变,这保证了用于计算一个query和其positive key的batch的统计信息来自两个不同的子集。 【Improved Baselines V2】 由于SimCLR的冲击,作者将其中的一些方法用到MoCo v...
MoCo在各种计算机视觉任务和数据集中显示出了强大的无监督学习结果,但有几个问题值得讨论。MoCo从IN-1M数据集切换到IG-1B数据集,在不同设置中一直有改进但不明显,这表明大规模数据可能没有得到充分利用,需要更为先进的代理任务,比如MAE(masked autoencoder,也是恺明的力作)。我们希望MoCo能对其它涉及对比学习的代理...