在本文中,我们介绍了多粒度跨模态对齐(MGCA)框架,该框架明确地学习像素级对齐以及对象和区域级对齐,从而在没有任何密集注释的情况下弥合粒度差距。具体来说,MGCA 巧妙地构建了图像-文本对的伪多粒度语义对应关系,并与硬采样策略合作,促进了细粒度的跨模态对比学习。此外,我们还指出了现有的群组和像素预测单元在下游...
vAlSB3eDKv/JObEHWqY2obtUEcm/pYS7pOoRudd9rMeBs3of7wqEsIdJTLsXtTD nlriUS+grHf1j86hQKY2AEgzew/YIRz2uKkNVlwTfDfL6s9QgNs/pMvtZetOViYO+Ur6MxgimYmj kxXYE68F4aubfnuY4mzLCOZoqRU/7rufhdRHqocon/iKicO+RaBYQPaoo4XaoYl+ff202E9X6MTj sC8KI8wRD/5xv5ysTFxrroiS2n52vQrjdgdJMfG1pJ54ofO/h+dZ...