Learnability Enhancement for Low-light Raw Denoising: A Data Perspective (fenghansen.github.io)fenghansen.github.io/publication/PMN/ 本文是我们入选ACM MM 2022 Best Paper Runner-up Award的工作。 PMN是"Learnability Enhancement for Low-light Raw Denoising: Where Paired Real Data Meets Noise Modelin...
研究动机 命名实体识别(NER)是信息抽取的一项基本任务,它的目的是识别文本片段中的实体及类型,如人名(PER),地名(LOC)和组织名(ORG)。命名实体识别在许多下游任务都有着广泛的应用,如实体链接[1]和关系抽取[2]。 图1:来自 Twitter 平台的多模态帖子,在这条推文中,“Alibaba”是人名而不是组织名 最近,大多数关...
ACMMM2022提出了点云分割领域的主动学习新SOTA方法,该方法通过空间结构多样性推理优化超点区域的选择和噪声处理,显著提高了模型性能。以下是该方法的详细介绍:核心策略:构建一种主动学习策略。首先计算点云中每个点和超点的不确定性,然后根据预测类别分布为超点赋予权重。这一步骤旨在识别出信息量大、...
本文提出了一种基于内容和梯度引导的单图像反射移除深度网络,它是一个充分可解释的模型驱动网络。首先,利用多尺度卷积字典,设计了一个结合图像内容先验和梯度先验信息的单图像反射移除模型;然后,利用近端梯度优化算法对模型进行优化,并将其展开为深度网络形式。此外,该方法引入了反射检测模块,以获得一个概率置信图...
一、技术概览 MegaPortraits 提出了一种基于神经网络的头像生成技术,专注于通过单一肖像图像生成高分辨率(百万像素级别)的虚拟头像。与现有的方法不同,该技术尤其适用于 跨域驱动(cross-driving)场景,即动…
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适...
ACM MM2022|基于多尺度 Transformer 的视频插帧方法 论文标题:Multi-Scale Coarse-to-Fine Transformer for Frame Interpolation发表会议:ACM MM2022作者:Chen Li,Li Song,Xueyi Zou,Jiaming Guo,Youliang Yan,Wenjun Zhang论文链接:https://dl.acm.org/doi/abs/10.1145/3503161.3548011 本文介绍我们最新发表在 ACM ...
在本次 ACM Multimedia 2022 视频理解大赛中,我们通过多重时域采样的集成策略,同时集成多种不同的网络结构和预训练数据集,最终取得了本次比赛视频分类赛道的第一名,为视频理解和预训练提出了一种新的方式。 参考文献 [1] Hangbo Bao, Li Dong, and Furu Wei. 2021. Beit: Bert pre-training of image transfo...
近期我们组关于 transformer 归一化算子(LayerNorm)改进的工作《Unified Normalization for Accelerating and Stabilizing Transformers》被 ACM MM 2022 接受,和大家一起分享讨论下。 论文题目: Unified Normalization for Accelerating and Stabilizing Transformers
Language Sequences》的学术论文被国际多媒体会议ACM MM 2022(ACM International Conference on Multimedia)录用;一篇题为《CA-SpaceNet: Counterfactual Analysis for 6D Pose Estimation in Space》的学术论文被国际智能机器人与系统会议IROS...