去年在跨模态检索/匹配 (cross-modal retrieval/matching) 方向开展了一些研究与应用,感觉比较有意思,所以想写点东西记录一下。这个研究方向并不是一个很"干净"的概念,它可以与 representation learning、contrastive learning、unsupervised leraning 等等概念交叉联系。并没有时间和能力写综述,思来想去就以研究较多的图文...
标题:A Survey of Multimodal Composite Editing and Retrieval 作者:Suyan Li, Fuxiang Huang, Lei Zh...
1. 论文和代码地址 A new approach to cross-modal multimedia retrieval 论文地址:dl.acm.org/doi/10.1145/ 代码地址:github.com/emanuetre/cr 2. Motivation 在过去的十年中,网络上的多媒体内容出现了大规模爆炸式增长。这次多媒体内容爆炸没有使得多媒体内容建模技术的复杂性也相应提高。今天,搜索多媒体存储库...
技术标签: cross-modal-retrievalA Comprehensive Survey on Cross-modal Retrieval Kaiye Wangy, Qiyue Yiny, Wei Wang, Shu Wu, Liang Wang∗, Senior Member, IEEE 1. 研究现状: 目前跨模态检索主要分为两种方法:(1)real-valued表示学习;(2)binary表示学习。Real-valued... 查看原文 跨媒体检索--无监督...
你说的是这篇文章吗--Multilayer pLSA for Multimodal Image Retrieval?我的理解是multimodal指的就是visual words和text两种modal,所以他才说是multimodal的;至于你说的cross-modal我不是很清楚,不能随便乱说。 发布于 2013-05-06 20:24 赞同添加评论 分享收藏喜欢收起...
3.2 Fine-tuning for Cross-modal Retrieval 对于微调,我们将三重态排名损失最小化,以微调检索模型。为了提高性能,我们在SCAN中使用了硬负挖掘策略。 4 实验 对于预训练,我们使用了两个公共的英语图像标题数据集:SBU标题(Ordonez等人,2011年)和概念标题(Sharma等人,2018年)。由于url中断,我们总共只收集了大约370万...
摘要原文 In this paper, we propose a multi-task learning approach for cross-modal image-text retrieval. First, a correlation network is proposed for relation recognition task, which helps learn the complicated relations and common information of different modalities. Then, we propose a correspondence...
In this work, we tackle the problem of single image-based 3D shape retrieval (IBSR), where we seek to find the most matched shape of a given single 2D image from a shape repository. Most of the existing works learn to embed 2D images and 3D shapes into a common feature space and perf...
SDML:Scalable Deep Multimodal Learning for Cross-Modal Retrieval 阅读笔记,程序员大本营,技术文章内容聚合第一站。