数据集概览如图2所示。图2右侧展示了OmniMedVQA的五种问题类型。图3反映了数据集包含的不同模态的影像和涉及的相关器官。 图2 OmniMedVQA数据集概览 图3 OmniMedVQA涉及的模态和器官 三、评测方法 为了准确评测多模态大模型在医学领域的能力,我们设计了两种评测指标:Question-answering score和Prefix-based score。
数据集信息 VQA-Med-2019 是一个专注于医学领域的视觉问答数据集,旨在通过图像内容分析来解答问题,无须额外的医学专业知识或领域内推理。它包含四个主要问题类别:影像模态(Modality)、成像平面(Plane)、器官系统(Organ System)以及异常情况(Abnormality)。这些问题按不同的难度级别设计,以适应多样的分类和文本生成方法。
现有医学VQA数据集在规模与全面性上不足,因此构建一个大规模、全面的数据集至关重要。构建高质量医学VQA数据集面临挑战,需从医学分类数据集出发,结合类别属性与延伸知识生成问题。以肺结核患者胸腔X-Ray影像为例,设计如下QA模版:- Q:该图像是通过什么模态采集得到的?A:X-Ray - Q:该图像显示了...
PubMedVision 是一个大规模且高质量的医疗多模态数据集,由深圳市大数据研究院、香港中文大学和 National Health Data Institute 的研究团队于 2024 年创建,包含 130 万个医学 VQA 样本。相关论文成果为「HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale」。 该数据集通过...
OmniMedVQA数据集是由香港大学与上海人工智能实验室联合推出的一个专注于医疗领域的大型视觉问答(VQA)评测数据集。该数据集包含118,010种不同图片,拥有12种不同模态,涉及超过20个人体不同的器官、部位。OmniMedVQA以73个不同分类数据集为基础,拓展出了多种QA模版,基于这些QA对进行采样,得到了12,7995个不同的VQA...
PubMedVision 是一个大规模且高质量的医疗多模态数据集,由深圳市大数据研究院、香港中文大学和 National Health Data Institute 的研究团队于 2024 年创建,包含 130 万个医学 VQA 样本。相关论文成果为「HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale」。
OmniMedVQA数据集是由香港大学与上海人工智能实验室联合推出的一个专注于医疗领域的大型视觉问答(VQA)评测数据集。该数据集包含118,010种不同图片,拥有12种不同模态,涉及超过20个人体不同的器官、部位。OmniMedVQA以73个不同分类数据集为基础,拓展出了多种QA模版,基于这些QA对进行采样,得到了12,7995个不同的VQA...
OmniMedVQA数据集是由香港大学与上海人工智能实验室联合推出的一个专注于医疗领域的大型视觉问答(VQA)评测数据集。该数据集包含118,010种不同图片,拥有12种不同模态,涉及超过20个人体不同的器官、部位。OmniMedVQA以73个不同分类数据集为基础,拓展出了多种QA模版,基于这些QA对进行采样,得到了12,7995个不同的VQA...
我们利用OmniMedVQA数据集,测试了8个通用多模态大模型:BILP2, MiniGPT-4, InstructBLIP, mPLUGOwl, Otter, LLaVA, LLama adapter v2, 和VPGTrans。以及四个医学多模态模型:Med-Flamingo,RadFM,MedVInT和 LLaVA-Med。实验结果如图5和图6所示,它们分别按5种不同任务类型和12种不同模态体现了各模型的评测结果...