- 使用GPT-4和GPT-4V等强大的教师模型生成的多模态指令数据用于微调MLM,有效提升了评分能力和人类评分的一致性 - MLM过滤器在大规模图像-文本数据集上的计算效率和性能表现优于CLIPScore,尽管模型参数更大,但通过最新技术显著加快了推理速度