SA-Med2D-20M 是一项具有突破性意义的数据集工作,它由460万张医学图像和近2000万个对应的掩膜构成,涵盖了10种模态、31个主要器官和219个类别,是迄今为止最大的医学图像分割数据集。数据来源于大量公开和私有数据集。SA-Med2D-20M取之于社区,回馈于社区,相信该数据集的开源将加速医学基础大模型的研发和医学图像数...
类别信息统计 SA-Med2D-20M包含219个类别标签,类别分布为长尾类型。最常见的类别掩膜数量在10,000至100,000之间,最常见的是增强性肿瘤和水肿。联合类别用于处理多个类别之间的像素重叠问题,标签未知类别指原始数据集未提供特定标签信息。构建流程 数据集构建涉及数据收集、图像归一化和掩膜处理。图像归...