该文的研究动机是为了提出一种新的多模态预训练方法,以解决现有技术在细粒度特征交互和模态间对齐方面的不足,通过跨模态引导和对齐来增强图像和文本之间的深层关联理解,进而提升多模态模型在视觉语言任务中的性能。 二、创新点 1.方法架构 图1 MulGA模型整体框架 该框架由基于视觉序列压缩的双流特征提取网络、细粒度...