PMC-OA 是一个大规模的数据集,包含 165 万个图像-文本对。它涵盖了来自 PubMed Central 的 2,478,267 篇可用论文中的图形和说明文字,并从中提取了 12,211,907 个图像-说明文本对。作为一个专注于生物医学领域的大型数据集,旨在解决该领域数据稀缺的问题,并推动计算机视觉(CV)和自然语言处理(NLP)的发展。它...