这篇论文提出了CLIPS框架,通过部分使用合成字幕和引入自回归字幕生成器,显著提升了视觉-语言预训练模型在零样本跨模态检索任务中的性能,并在多个MLLM基准测试中展现了强大的视觉能力。实验结果表明,CLIPS在MSCOCO和Flickr30K数据集上达到了新的SOTA结果。 优点与创新 显著的零样本跨模态检索性能提升:CLIPS框架在MSCOCO和Flickr30K数据
此外,为了改进视频字幕,作者使用Uni-VL预训练权重初始化基于编码器-解码器的caption结构,并在MSR-VTT数据集中微调模型。 此外,作者还引入了一种新的集成策略,利用caption度量集成多个模型的生成结果。大量实验表明,本文提出的CLIP4Caption方法显著优于当前SOTA的方法,在视频理解挑战测试数据集中排名第二。 ▊作者简介 研...
本文的模型如上图所示,主要分成两部分,下半部分为预训练的结构,该结构能够基于视频-文本检索任务来进行预训练,使得模型能够学习到与文本高度对齐的视频特征; 上半部分为微调的结构,该结构基于预训练的视频特征,来生成caption,由于预训练中生成的video encoder能够生成和文本高度对齐的视频特征,因此,在进行caption的时候...
CLIP4Caption是腾讯与清华大学合作的一项研究,它成功地将CLIP模型应用于视频字幕任务中。通过设计基于CLIP的增强视频文本匹配网络,CLIP4Caption整合了视觉和语言信息,提升了文本生成的相关性。性能提升:在MSRVTT数据集上,CLIP4Caption实现了显著的CIDEr分数提升,高达10%。该模型在ACM MM2021视频字幕挑战赛...
他们发现原生的 llama3 8B 甚至无法找到十分匹配的 caption,例如 plane 和 bat 的距离更近,但是离 airplane 的距离更远,这有点离谱了,因此它只取得了 18.4% 的召回率。显然,这样的输出空间无法给 CLIP 的 vision encoder 一个有意义的监督,LLM 无法帮助 CLIP 的进行有意义的特征学习。图像描述对比微调是...
CLIP4Caption方法在MSR-VTT数据集上实现了显著的CIDEr分数提升,高达10%,并表现出色于当前最先进的视频字幕技术。在ACM MM多媒体大奖赛的视频理解挑战中,该模型在预训练视频理解任务中排名第二,显示了其在视频字幕生成任务中的竞争力。论文和代码虽然尚未开源,但其核心是通过预训练的Transformer结构,...
由于训练数据的限制[52; 71],视频标题生成模型的性能目前落后于图像标题生成方法。未来的工作可以探索它们的性能改进。最近的工作如ClipVideoCap [81],Lavander [33],CLIP4Caption [67],HiREST [87],和TextKG [24]取得了有希望的结果。然而,作者在这项工作中的设置不考虑访问标记视频。
由于Conceptual Caption数据集没有分割标注,研究者通过人工评估来比较ZeroSeg和GroupViT的分割质量。他们使用亚马逊机械土耳其(Amazon Mechanical Turk)平台,为每张覆盖有分割掩码的图像分配5名不同的工作者,让每个工作者决定哪个模型产生的分割质量更好。结果显示,ZeroSeg获得了更多的支持票,比例为68%对32%,表明...
根据上表,其实我们可以发现,ZSD的检测效果差(map不高),主要原因,我认为就是对于没有任何未知类的例子经过训练,OVD 应该是会有部分未知类通过image-caption dataset 训练课得知,因此从现有基类的特征其实很难推出新类。WSD 定位效果不好, 我个人分析认为,他从没有注释的图片很难学习到特征,就很难像OVD那样通过...
self.transform=torchvision.transforms.ToTensor()def__len__(self):returnlen(self.texts)def__getitem__(self,idx):img_path=self.image_paths[idx]image=Image.open(img_path)image=self.transform(image)caption,mask=self.inputs[idx].items()return{"image":image,"input_ids":caption["input_ids"],"...