医学多模态大模型

GMAI-VL & GMAI-VL-5.5M

基于来自219个专业数据集的550万图文对训练的通用医学视觉语言模型

由上海人工智能实验室主导，联合中国科学院深圳先进技术研究院（SIAT）与上海交通大学共同研究。

图1. GMAI-VL 与 GMAI-VL-5.5M 总览。(a) GMAI-VL-5.5M 的数据来源、科室、模态、任务类型和指令格式。(b) GMAI-VL 架构：视觉编码器 + 投影层 + 大语言模型。(c) 三阶段训练流程——浅层对齐、深度对齐与指令微调。

尽管通用AI取得了显著进展，其在临床医学中的应用仍受到领域专业知识缺乏和大规模高质量多模态训练数据稀缺的制约。现有医学数据集范围狭窄，局限于特定影像模态或临床任务，难以支撑真正通用的医学AI模型的训练。

GMAI-VL从数据到模型进行端到端突破。我们首先构建了 GMAI-VL-5.5M——目前最大、最多样化的多模态医学数据集，整合了来自219个专业医学数据集的550万图文对，覆盖18个临床科室和10余种影像模态，同时支持中英双语。在此基础上，采用渐进式三阶段训练策略训练 GMAI-VL，逐步深化视觉与语言的对齐融合，在多种医学多模态基准上实现了最先进的性能。

🌟 核心亮点

01 — GMAI-VL-5.5M：前所未有的数据规模与多样性

GMAI-VL-5.5M整合了 219个专业医学影像数据集，形成 550万 高质量图文对的统一语料库。数据集跨越 18个临床科室——从放射科、病理科到眼科和内窥镜科——涵盖CT、MRI、X光、超声、眼底摄影和显微镜等10余种影像模态。所有数据均可追溯至来源机构，并同时支持中英双语，是迄今为止训练通用医学AI最全面的基础数据集。

图3. GMAI-VL-5.5M 在影像模态（左上）、原始任务类型（右上）、临床科室（左下）和临床任务类型（右下）上的分布——展示了前所未有的广泛覆盖。

02 — 领跑多模态医学数据集

与所有先前的多模态医学数据集相比，GMAI-VL-5.5M在四个关键维度上独领风骚：规模（550万对，远超所有竞争者）、来源多样性（219个专业数据集）、双语支持（中英文）以及完整来源可追溯性。这一组合使得GMAI-VL-5.5M不仅在数量上更大，在质量上也更优——能够支持模型跨越此前任何数据集都无法覆盖的临床场景进行泛化。

表1. 多模态医学数据集在规模、模态、语言、可追溯性与数据来源上的对比。GMAI-VL-5.5M（本研究）以来自219个专业医学影像数据集的550万样本在各维度均处于领先地位。

03 — 三阶段渐进式训练策略

GMAI-VL在精心整理的语料库上进行训练，涵盖医学说明数据（33.7%）、医学指令数据（31.8%）、通用文本（13.2%）、报告生成（4.6%）以及通用指令与说明数据。训练分三个阶段进行：第一阶段——浅层对齐（1170万对）仅训练投影层，在视觉编码器和大语言模型冻结的情况下对齐视觉和文本表示；第二阶段——深度对齐（1170万对）同时微调投影层和大语言模型，实现更深层的跨模态融合；第三阶段——指令微调（1000万对）专为临床指令遵循和精细医学推理而设计，覆盖多样化任务格式。

图4. GMAI-VL 训练数据集分布。内环代表主要类别（医学说明、医学指令、通用文本等）；外环展示具体组成数据集及其数据量——呈现了为三阶段课程训练组装的全面多源语料库。

04 — 达到最先进的多模态医学性能

GMAI-VL在广泛的临床多模态任务中表现出色：胸部X光和CT扫描的详细图像描述、内窥镜和眼底图像的视觉问答、多选项临床推理（识别伪影类型、病变特征和鉴别诊断），以及跨模态医学推断。模型能够处理中英文提示、放射科和病理图像，以及结构化（多选）和开放式（自由文本）指令格式——验证了其训练语料库所保证的通用性。实验证实在医学视觉问答和诊断推理基准上达到了最先进的性能。

图2. GMAI-VL 在五种临床任务中的示例输出：(a) 胸部X光描述，(b) 内窥镜多选项视觉问答，(c) 肺结节识别，(d) 新冠CT诊断推理，(e) 糖尿病性视网膜病变严重程度分级——展示了跨模态、跨语言和跨任务格式的泛化能力。(e) 为一个仍在研究中的失败案例。

结语

GMAI-VL通过同时解决数据稀缺和模型通用性这两个相互关联的挑战，为通用医学AI树立了新的范式。通过将219个专业医学数据集统一为单一的550万对语料库，并通过有原则的三阶段课程训练，GMAI-VL在多种医学视觉问答和诊断推理基准上取得了最先进的结果。这标志着从狭窄的特定任务医学AI向真正通用模型的重要跨越——该模型能够跨科室、跨模态、跨语言地协助临床医生。

主要贡献

构建了 GMAI-VL-5.5M——最大、最多样化的多模态医学数据集：来自219个专业数据集的550万图文对，涵盖18个临床科室、10余种影像模态，支持中英双语并具有完整来源可追溯性。
通过三阶段渐进式训练策略（浅层对齐→深度对齐→指令微调）开发了 GMAI-VL，系统性地强化了跨模态临床推理能力，在医学VQA和诊断推理任务上达到最先进水平。
在多个医学多模态视觉问答和诊断推理基准上取得了最先进性能，超越了先前的医学专用和通用视觉语言模型。
完全开源模型权重和训练代码，使研究社区能够复现、微调和基于GMAI-VL进行临床与科研应用的开发。

作者团队

Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

GitHub 仓库 arXiv 论文 ← 返回项目列表

</div>