文本信息融合:利用文本信息作为指导,提高视频细节的保留能力和时间稳定性。图像和视频的联合训练:增强模型在多任务上的重建性能和适应性。模型架构:VideoVAE+模型包括时序感知的空间自编码器和时序自编码器,分别处理空间和时间信息。关键技术:智能特征分块:将视频视觉特征图分割成小块进行处理。跨模态注意力机制:引入...
针对多模态间异构的本质属性,通过多模态蒸馏的思路来融合同质和异质特征,融合的技术使用的是图蒸馏单元,具体代码没有抛开,但是解决的问题和自己之前用非均匀注意力机制的insight是相同的,不同的是,这里的处理更加精细,编码器也根据同质和异质使用了共享编码器和各自的编码器,有关图的蒸馏其实也很有意思,值得一读。