对于提议的(ConVSE和ConVSE++)联合嵌入模型,我们在上述基础嵌入网络的图像和文本处理pipeline上,使用两个MLP层增加了一个非线性投影头。这两个MLP由两个全连接层组成,分别有2048个和1024个隐藏单元,最后我们得到每种模态的1024维嵌入。这个网络使用公式6和公式12中给出的提议损失函数进行训练,分别得到ConVSE和ConVSE...