图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型 FesianXu 20220127 at Baidu Search Team 前言 之前在博文[2-4]中介绍了一些图文多模态语义对齐相关的模型,分别是WenLan 1.0, WenLan 2.0和CLIP等,这些模型都是双塔结构模型,然而在实际的应用场景中,我们会有使用单塔模型的需求,笔者在本文将介绍一篇...