数据集链接:huggingface.co/datasets 简介 跨模态检索(cross-modal retrieval)旨在于多模态数据中桥接匹配不同的模态,而噪声对应学习(Noisy Correspondence Learning, NCL)是其中的一大难题。噪声对应(noisy correspondence)主要来自于不匹配的数据对,即数据对中不同模态的数据语义不对齐。为了解决这个问题,我们提出了基于伪...
【论文解读】ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法 | 新基准数据集, 视频播放量 178、弹幕量 0、点赞数 2、投硬币枚数 0、收藏人数 3、转发人数 0, 视频作者 YukariSakura, 作者简介 ,相关视频:【计算机视觉入门到精通】六大算法:图
请问你看的是哪篇文章呀,我现在也需要处理好的coco数据集
具体来说,研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来获取每个视频的字幕。接下来,在一小部分子集上对检索模型进行微调,人工选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为标注。
接着我们将该图像对应的标题分配给噪声数据中的图像作为伪标题,并且利用基于伪预测之间相似度自适应调整的边距的三元组对比损失来训练图文匹配模型。 具体来说,给定一个图文对数据集,我们使用两个特定模态编码器 f(\cdot) 和g(\cdot) 分别计算图像特征嵌入 f(I) 和文本特征嵌入 g(T)。跨模态检索的基本目的是...