医学数据基础设施

Imaging-X 项目

用于基础模型开发的 1000+ 开放获取医学影像数据集综述

由上海人工智能实验室牵头，联合剑桥大学、斯坦福大学、清华大学、复旦大学、上海交通大学、香港大学、约翰斯·霍普金斯大学、多伦多大学、伦敦大学学院、浙江大学、蒙纳士大学、香港中文大学、香港科技大学等海内外 40 余家顶尖研究机构共同完成。

GitHub arXiv 论文 🤗 HuggingFace 论文页 🤗 数据集

概念概览：将碎片化医学影像数据孤岛转化为驱动下一代医学基础模型的统一资源。

大规模、多样化和高质量训练数据集的稀缺阻碍了医学影像基础模型的发展，导致模型仅限于特定任务、模态或解剖区域。现有医学影像数据集碎片化分布于狭窄范围的任务中，器官和模态分布不均，并缺乏系统的组织以实现广泛整合。

Imaging-X 项目直面这一核心挑战：医学影像数据的稀缺性与碎片化。与可以从互联网大量抓取的自然图像不同，医学图像由于隐私法规、专业设备需求和高昂的专家标注成本，采集极为困难。本项目对 1000+ 开放获取医学影像数据集进行了全面调研，并引入系统框架将其整合为统一资源，支撑基础模型训练。

🌟 核心亮点

01 — 前所未有的规模与系统性

Imaging-X 项目是迄今为止最全面的医学影像开源数据集调查，覆盖 1000+ 数据集，涵盖 2D、3D、视频等不同维度，涉及 CT、MRI、X 光、病理切片、超声等多模态影像，系统梳理任务类型（分类、分割、检测、生成等）与解剖部位——为社区提供权威、可访问的综合参考。

医学影像数据集的多维分类体系：涵盖数据维度（2D / 3D / 视频）、影像模态、临床任务与解剖器官——首次提供全领域的统一分类框架。

02 — 揭示现有医学影像数据的规律与趋势

通过统一的分类体系，本项目首次全面分析了数据分布格局，并提炼出一系列关键发现：

主矛盾不是总量不足，而是总量增长与临床覆盖增长脱钩。图像数目不断增加，但患者级、3D 级、时序级、跨模态级覆盖并没有同比例提升。
数据分布更受获取和统计方式影响，而不完全反映真实临床需求。2D 图像和病理图像占比高，部分原因是更容易采集和计数，但"图像多"不等于"临床信息更全面"。
任务分布受到标注成本和数据组织难度的强烈约束。分类和分割数据占主导，不是因为其他任务不重要，而是因为配准、追踪、问答和多模态推理更依赖复杂标注。
近年的数据扩张是选择性的。2023 年后的增长主要集中在大脑、肝脏、肺部、胸部等热点器官和主流模态，弱势方向没有被明显补齐。
真正的瓶颈已不是简单收集更多数据，而是如何重构更合理的训练分布。面对长尾、碎片化和失衡的数据生态，需要统一计数方式、平衡采样策略和任务设计。

数据集在解剖区域、影像模态和临床任务上的分布——清晰揭示哪些领域覆盖充分、哪些仍存在关键空白。

03 — 元数据驱动融合范式（MDFP）

面对数据碎片化问题，项目创新性地提出元数据驱动融合范式（MDFP）——一套将异构数据集整合为连贯语料库的结构化方法论，包含四个阶段：

阶段一

元数据协调

将描述符标准化到权威医学术语（UMLS、MeSH），使"胸部""胸腔""肺部"被识别为相关解剖实体。

阶段二

语义对齐

弥合原始机器学习任务与临床意义之间的差距，协调异构标注约定，映射到统一模式。

阶段三

融合蓝图

按共同特征分组数据集，评估数据总量与存储需求，标记成像协议或标注类型中的潜在不兼容性。

阶段四

索引与共享

发布结构化、可公开访问的索引，支持细粒度检索——如"所有带分割掩膜的心脏超声视频"。

三类医学图像分析任务的代表性样本：(a) 分类，(b) 分割，(c) 检测——展示调研覆盖的模态多样性与临床应用广度。

04 — 社区共享与交互式数据发现门户

项目提供交互式医学数据集浏览器，支持按模态、解剖部位、任务、许可证等条件对 1000+ 数据集进行自动化检索、统计分析与整合。配套 Python 工具包自动化数据集集成，通过融合蓝图支持多模态、多任务基础模型训练，大幅降低构建大规模医疗语料库的工程负担。

25 个解剖部位的数据集与影像样本数量统计——清晰揭示哪些解剖区域仍严重代表性不足。

差距分析与未来方向

调研识别出研究社区必须解决的关键差距：

解剖代表性不足

心脏、肠道、肌肉骨骼等临床重要结构的数据严重匮乏，而大脑和肺部等"热点"器官已有充足数据。

任务失衡

对临床干预至关重要的图像配准、目标追踪和多模态推理数据集，远比分类和分割数据稀缺。

多模态联动需求

将影像与其他临床数据关联的数据集（如放射+病理配对、图像+纵向电子病历）极为匮乏。

结论

Imaging-X 项目代表了系统性绘制和组织全球开放医学影像数据的重要努力。通过提供统一分类法和元数据驱动的整合框架，本工作推动从小型、任务专用模型向大型通用医学基础模型的范式转变。数据空白的识别也是对临床社区的号召——优先在代表性不足的领域建立数据集，确保下一代医疗 AI 既强大又能全面覆盖人类健康的各个方面。

核心贡献

编目 1000+ 开放获取医学影像数据集，提供包含主体、采集和媒体级信息的标准化元数据。
通过案例研究验证 MDFP 有效性：为多模态、多任务 2D 医学基础模型训练整理了包含 57 个数据集（210 万+ 经验证图像）的目标对齐数据集合。
发布交互式网络门户（"医学数据集浏览器"）和 Python 工具包，为研究社区提供透明、实用的开放资源。
提供首个全面的开放医学影像数据差距分析，为未来数据集建设和模型训练指明优先方向。

作者

Zhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou 等。

GitHub 仓库 arXiv 论文 🤗 数据集 ← 返回项目列表

</div>