综述概要:从2018年掩码预训练在自然语言处理领域取得突破性进展至今,掩码预训练和相关应用已经延伸至计算机视觉、语音处理、图网络、科学人工智能(AI4Science)等领域。综述以图像掩码(Masked Image Modeling, MIM)预训练为例,总结了一套包含四个模块的通用框架,具体整理改进不同模块的基础MIM工作,并介绍了视觉下游任务、语音处理、
文章旨在解决扩散模型(diffusion models)在生成高质量图像方面表现出色,但在语言建模(language modeling)任务中与自回归(autoregressive, AR)方法存在显著性能差距的问题。作者指出,尽管扩散模型在生成离散数据(如文本、生物序列和图)方面具有潜力,但在语言建模的性能上,与AR方法相比,先前工作的扩散模型报告了较大的对数似...
MDT提出了一种针对Diffusion Transformer 设计的mask modeling表征学习策略,以显式地增强Diffusion Transformer对上下文语义信息的学习能力,并增强图像中物体之间语义信息的关联学习。 如上图所示,MDT在保持扩散训练过程的同时引入mask modeling学习策略。通过mask部分加噪声的图像token,MDT利用一个非对称Diffusion Transformer (...
with an encoder that oper- input target 1 . . . . . . 1 ates only on the visible subset of patches (without mask to- . . kens), along with a lightweight decoder that reconstructs ] V the original image from the latent representation and mask tokens. Second, we find that masking...
在他们的研究中,图像分类、语义分割和深度估计这三个任务上对 MultiMAE 进行了预训练,并在 ImageNet-1K 上进行伪标记,然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 数据集上进行微调。 结果表明,当 只使用RGB 进行微调时,MultiMAE 保留了常规 MAE 的优势,并且它还可以利用深度等其他模态,例如使用伪标...