由于预计算和存储大量ROI特征,此设计使预训练复杂化。...对于视觉模态,图像编码器是一个视觉Transformer,它将额外的[CLS] token嵌入和线性投影图像patch concat作为输入。...然后,使用图像中所有非填充token的平均token最大相似性作为图像与文本的相似性。...其次,在计算相似度时,作者使用的是token最大相似度的平均...