为了促进面向更精细视觉-语言理 解的对象级RES任务,我们提出了一个新的多粒度指 代表达分割(MRES)任务,并通过手动注释构建了 一个名为RefCOCOm的评估基准。通过利用我们的自动模型辅助数据引擎,我们构建了最大的视觉定位数据集,即MRES-32M,其中包括超过32.2M个高质量的蒙版和标题,涵盖了提供的1M张图像。此外,设计...
本文提出了一种全新的多粒度指代分割任务,通过手动注释构建了一个评估基准,命名为RefCOCOm。我们进一步探索了更精细的部分级指代表达分割(MRES)任务,通过构建了最大的视觉定位数据集MRES-32M,其中包含了32.2M个高质量的蒙版和标题,覆盖了1M张图像。设计了一款统一的对象级和部分级定位的模型UniRES,...
内容简介:本文主要介绍了一个新的多任务协同网络(MCN),用于联合学习指代表达理解(REC)和指代表达分割(RES)两个任务。MCN采用了共享视觉骨干和语言编码器的多模式和多任务协作学习框架,同时采用了两种创新的设计,即一致性能量最大化(CEM)和自适应软非定位抑制(ASNLS),来解决多任务设置中的预测冲突问题。 值得一提...
采用cIoU,gIoU,N-acc等指标来衡量分割性能。 R2-VOS Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus ICCV2023 github.com/JerryX1110/R 视频鲁棒指代表达分割数据集,存在没有目标的情况。 未分类 GRES: Generalized Referring Expression Segmentation 论文链接:[2306.00968] GRES: ...
(1)统一的多粒度。与接地对应物相比,我们的MRES 32M是第一个涵盖部分和对象粒度的视觉接地数据集。与部分级别分割对应物相比,我们的MRES-32M为每 个部分掩模提供了信息丰富且独特的细粒度描述。 (2)更多样化的类别。我们的MRES-32M由365个对象类别 和相关的2,299个部分类别组成。与现有数据集相比, 它涵盖了更广...