CLIP 作为视觉语言基础模型的成功依赖于在图像层面对齐网络抓取的嘈杂文本注释。然而,对于需要细粒度视觉表征的下游任务来说,这样的标准可能并不够,尤其是当区域级理解对 MLLM 有很高要求时。在这项工作中,苹果团队通过几项进展提高了 CLIP 的定位能力。他们提出了一种预训练方法,称为“对比本地化语言图像预训练”(...
我们的工作基于这样一个理念:通过与预训练的视觉编码器对齐,大型语言模型(LLM)可以被赋予多模态能力。在自然图像上,这已被证明能让多模态模型获得图像理解和描述的能力。我们提出的模型(MAIRA-1)利用了一个针对CXR的特定图像编码器,结合基于Vicuna-7B的微调LLM和基于文本的数据增强,来生成具有最先进质量的报告。特别...