针对这个问题,智源首次提出了通过数据浓缩技术获得高质量训练数据,从而提升多模态小模型性能的方案。具体而言,团队基于数据分布和图文匹配度将 LAION-2B 浓缩成 2M 核心集以得到更丰富的预训练数据,基于 DataOptim 和 SVIT 数据集精选得到更高质量的指令微调数据,从而训练得到性能强劲的小模型。 基于这一技术路线,BAAI...