训练任务有ITC(图像文本对比学习),ITM(图像文本匹配),MLM(Maked Language Modeling,有时会扩展到MIM),LM(Language Modeling,大部分可以看作是captioning)。然后选其中1到3个作为训练Loss,最后感觉选什么loss无太大所谓,比的还是谁的数据大,模型大...,谁大谁牛逼。不过当然了,能扩大规模最好还是精简一些loss的设计。
mean() #得到ITC损失 loss_ita = (loss_i2t+loss_t2i)/2 self._dequeue_and_enqueue(image_feat_m, text_feat_m, idx)#更新队列 ITM损失 寻找当前批次中,与自己最相似的负样本(也就是找到最难区分的) 正负样本定义为: 已知每个样本都是一个 图片-文本 对 对于一个图片,与自己对应的文字经过动量编码...
YehTd75Y8wa6R0SWMnhCJAaG1IlSOYClSSGV22LosS0M9Xx947SFidbCRIudW88cO+cx505JemBs /NC9d80bda394qaf6/cU2uvmHuN778X3Xrfm/GFk8VfE6aY5DcbiBkKnG7hw4IlNwyJDh46dbkQW 4+KmrUYjMndWiwvT+Haxodg5dl4YB7hw4IH84jsfm/PcOWsS2o71gt7MdTv2vih3dn+Mhaf1s+iP W/ujXPP2d63xFXa88dHx+OwtDHWN/WG7xt6...