19、由于采用了上述技术方案,本发明提供的一种基于语言视觉对比学习的多模态视频行为识别方法,该方法在帧级编码器中构造了虚拟帧交互模块来显式完成网络中间层的跨帧信息交互,更好地捕获了视频远距离及相邻帧之间的时间依赖信息;在语言分支上构建了视觉强化提示模块,通过注意力机制融合视觉分支输出分词中包含的视觉信息,...
【摘要】以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction...