用于基础模型开发的 1000+ 开放获取医学影像数据集综述
大规模、多样化和高质量训练数据集的稀缺阻碍了医学影像基础模型的发展,导致模型仅限于特定任务、模态或解剖区域。现有医学影像数据集碎片化分布于狭窄范围的任务中,器官和模态分布不均,并缺乏系统的组织以实现广泛整合。
Imaging-X 项目直面这一核心挑战:医学影像数据的稀缺性与碎片化。与可以从互联网大量抓取的自然图像不同,医学图像由于隐私法规、专业设备需求和高昂的专家标注成本,采集极为困难。本项目对 1000+ 开放获取医学影像数据集进行了全面调研,并引入系统框架将其整合为统一资源,支撑基础模型训练。
Imaging-X 项目是迄今为止最全面的医学影像开源数据集调查,覆盖 1000+ 数据集,涵盖 2D、3D、视频等不同维度,涉及 CT、MRI、X 光、病理切片、超声等多模态影像,系统梳理任务类型(分类、分割、检测、生成等)与解剖部位——为社区提供权威、可访问的综合参考。
通过统一的分类体系,本项目首次全面分析了数据分布格局,并提炼出一系列关键发现:
面对数据碎片化问题,项目创新性地提出元数据驱动融合范式(MDFP)——一套将异构数据集整合为连贯语料库的结构化方法论,包含四个阶段:
将描述符标准化到权威医学术语(UMLS、MeSH),使"胸部""胸腔""肺部"被识别为相关解剖实体。
弥合原始机器学习任务与临床意义之间的差距,协调异构标注约定,映射到统一模式。
按共同特征分组数据集,评估数据总量与存储需求,标记成像协议或标注类型中的潜在不兼容性。
发布结构化、可公开访问的索引,支持细粒度检索——如"所有带分割掩膜的心脏超声视频"。
项目提供交互式医学数据集浏览器,支持按模态、解剖部位、任务、许可证等条件对 1000+ 数据集进行自动化检索、统计分析与整合。配套 Python 工具包自动化数据集集成,通过融合蓝图支持多模态、多任务基础模型训练,大幅降低构建大规模医疗语料库的工程负担。
调研识别出研究社区必须解决的关键差距:
心脏、肠道、肌肉骨骼等临床重要结构的数据严重匮乏,而大脑和肺部等"热点"器官已有充足数据。
对临床干预至关重要的图像配准、目标追踪和多模态推理数据集,远比分类和分割数据稀缺。
将影像与其他临床数据关联的数据集(如放射+病理配对、图像+纵向电子病历)极为匮乏。
Imaging-X 项目代表了系统性绘制和组织全球开放医学影像数据的重要努力。通过提供统一分类法和元数据驱动的整合框架,本工作推动从小型、任务专用模型向大型通用医学基础模型的范式转变。数据空白的识别也是对临床社区的号召——优先在代表性不足的领域建立数据集,确保下一代医疗 AI 既强大又能全面覆盖人类健康的各个方面。
Zhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou 等。