对三个生成医学VQA数据集进行平均,few-shot提示Med-Flamingo在临床评估得分中取得了最佳平均排名(排名为 1.67,最佳先验模型为 2.33),表明该模型生成了临床医生最喜欢的答案,与之前的型号相比,性能提升高达 20%。其中: 「VQA-RAD数据集」上的对比结果如上图所示。可以发现BERT-sim可能无法完全捕获细粒度的医疗细节。