导读 本文简要介绍一篇ECCV 2022的Oral论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 该论文首次探索了一个新的更具挑战性的任务:艺术文字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。考虑到艺术字的特殊性,如字符形变大、字体复杂多样、字符间连笔与重叠严重等...
本文简要介绍一篇 ECCV 2022 的Oral论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition。该论文首次探索了一个新的更具挑战性的任务:艺术文字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。 考虑...
对此,上海交通大学 MediaBrain 团队和上海人工智能实验室智慧医疗团队等提出了一个基于配准的少样本异常检测框架,通过学习多个异常检测任务之间共享的通用模型,无需进行模型参数调整,便可将其推广到新的异常检测任务。目前,这项研究已被 ECCV2022 接收为 Oral 论文,完整训练代码及模型已经开源。 论文链接:https://arxi...
本文主要介绍最近两篇 ECCV 2022 Oral 的工作,分别在 offline 和 online 范式下的视频实例分割(Video Instance Segmentation, VIS)任务上取得了目前最高的性能,并在CVPR2022第四届大规模视频物体分割挑战赛( 4th Large-scale Video Obje...
ECCV 2022 Oral | 无需微调即可泛化!RegAD:少样本异常检测新框架mp.weixin.qq.com/s/6sH1AJY51teJuXdF7WfN2g 来自上海交通大学 MediaBrain 团队和上海人工智能实验室智慧医疗团队等的研究人员提出了一种基于配准的少样本异常检测框架 RegAD,用于学习多个异常检测任务之间共享的通用模型。RegAD 无需模型参数调整,...
ECCV2022 Oral | MaskCLIP 【写在前面】 对比语言图像预训练(CLIP)在开放词汇零样本图像识别方面取得了显着突破。许多最近的研究利用预训练的 CLIP 模型进行图像级分类和操作。在本文中,作者希望检验 CLIP 在像素级密集预测方面的内在潜力,特别是在语义分割方面。为此,作者通过最少的修改展示了 MaskCLIP 在没有注释...
据了解,这项工作入选 ECCV 2022 Oral 并非一帆风顺。虽然 pre-rebuttal 的评分不错,得到了两个 Accepts 和一个 Borderline,评审人的评价也很高。并且,研究者本来希望通过 rebuttal 让中立的评审人改分,争取 Oral。遗憾的是,接收列表出来的时候却发现这篇文章没有中。研究者没有就此放弃,而是选择在与合著者...
ECCV2022 Oral|任务范式大统一!微软提出UniTAB用Seq2Seq模式统一多模态任务! 【写在前面】 作者提出了统一文本和框输出的 UniTAB,用于基础视觉语言 (VL) 建模。ground的 VL 任务(例如grounded captioning)需要模型生成文本描述并将预测的单词与对象区域对齐。为此,模型必须同时生成所需的文本和框输出,同时指示单词和...
Towards Grand Unification of Object Tracking 目标跟踪领域主要可分成以下四项子任务:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。由于不同子任务在定义与设定上的差异,绝大多数现有跟踪算法都是被设计用来解决单一或者部分子任务的,缺乏向其他任务的拓展能力。显然,他们...
Towards Grand Unification of Object Tracking 目标跟踪领域主要可分成以下四项子任务:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。由于不同子任务在定义与设定上的差异,绝大多数现有跟踪算法都是被设计用来解决单一或者部分子任务的,缺乏向其他任务的拓展能力。显然,他们...