作为视觉-语言理解中最具挑战性的任务之一,指 代表达分割(ReferringExpression Segmentation,RES) 旨在基于描述性语言表达在像素级别上定位特定区 域。与传统的仅关注图像或视频的视觉分割任务相比, RES由于需要跨模态进行强大的理解而面临更大的困 难和挑战,但它可以同时缓解传统对象检测或分割中 预定义类别的问题。由...
在本工作中,我们关注在动态视听(Audio-Visual)场景下的指代分割,具体来说,我们提出并聚焦于 Refer and Segment Objects in Audio-Visual Scenes(Ref-AVS,视听场景下的指代分割),旨在动态视听场景下让机器像人类一样借助多模态线索定位感兴趣的物体。图1揭示了Ref-AVS任务与其他分割、指代分割任务的对比。同时,为了支...
本文提出了一种全新的多粒度指代分割任务,通过手动注释构建了一个评估基准,命名为RefCOCOm。我们进一步探索了更精细的部分级指代表达分割(MRES)任务,通过构建了最大的视觉定位数据集MRES-32M,其中包含了32.2M个高质量的蒙版和标题,覆盖了1M张图像。设计了一款统一的对象级和部分级定位的模型UniRES,...
绿色的是 ground truth,绿色的是本方法的结果,蓝色的是 MAttNet 的结果。 后续工作:指代分割 Referring image segmentation via cross-modal progressive comprehension,CVPR 2020 Linguistic structure guided context modeling for referring image segmentation,ECCV 2020 是在上一个工作的基础上做一个分割。 从动机上来看...
来自中科院自动化所、字节跳动的研究者提出了一种高性能的指代性分割基准模型,与之前的最佳结果相比,该方法可以获得更好的分割效果。 如何通过自然语言定位并分割出场景中的目标物体?比如给定一张图片,语言指示 「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割(Referring Image Segmentation)。目前指代性...
性能对比:RefMask3D在3D指代分割和视觉定位任务中取得了新的最先进性能,显著超越了之前的方法。 可视化结果:可视化结果展示了不同原语代表的语义属性(如颜色、关系、名称等),以及RefMask3D在复杂语言描述下准确分割目标对象的能力。 原语热图可视化。不同的原语代表不同的语义属性。蓝色表示最低响应水平,而红色表示最高...
专利摘要:本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中...
引用表达分割(RES)的目标是标记出自然语言表达中相应于特定目标或提到的单元。它涉及准确地识别和分割由语言描述指代的目标。 在本论文中,作者专注于RES,并使用MLLM来解决这个任务。然而,仅使用边界框是不够精确地指示图像中物体的位置的。这导致了以像素级精度改进标注的研究重点集中在MLM,增强图像信息编码,以及设计...
首先根据多模态信息的编码解码方式,将现有图像指代分割算法分成基于多模态信息融合和基于多尺度信息融合两类进行了系统阐述,重点介绍了基于CNN-LSTM框架的方法、结构复杂的模块化方法和基于图的方法;然后,对用于图像指代分割任务的典型数据集和主流评价指标进行了总结与统计;之后,通过实验综合比较了现有的图像指代分割模型...
给定指代语句及对应图像,指代分割要求分割出符合语句描述的目标.其以语言作为筛选依据,赋予了分割方法交互的可能性,并拓展了不同场景下的适用范围,因而迅速的引起了研究人员的关注.对单个目标的语言描述多种多样,而同一语句亦能在多变场景下指定不同目标,因此该任务需要大量的训练数据用以学习语言与图像之间的潜在关联...