其中,当mask=75%时,FLIP达到和基线模型CLIP相同的性能时,训练速度是它的3.7x。 这也就意味着,CLIP花费大约2500 TPU-days训练完成时,FLIP可以大约节省1800 TPU-days。 这一结果在ImageNet-1K验证集上的Zero-shot transfer任务中得出,每个不同mask比例的模型都在LAION-400M上进行了6.4、12.8或32个epoch的训练,包...