基于来自219个专业数据集的550万图文对训练的通用医学视觉语言模型
尽管通用AI取得了显著进展,其在临床医学中的应用仍受到领域专业知识缺乏和大规模高质量多模态训练数据稀缺的制约。现有医学数据集范围狭窄,局限于特定影像模态或临床任务,难以支撑真正通用的医学AI模型的训练。
GMAI-VL从数据到模型进行端到端突破。我们首先构建了 GMAI-VL-5.5M——目前最大、最多样化的多模态医学数据集,整合了来自219个专业医学数据集的550万图文对,覆盖18个临床科室和10余种影像模态,同时支持中英双语。在此基础上,采用渐进式三阶段训练策略训练 GMAI-VL,逐步深化视觉与语言的对齐融合,在多种医学多模态基准上实现了最先进的性能。
GMAI-VL-5.5M整合了 219个专业医学影像数据集,形成 550万 高质量图文对的统一语料库。数据集跨越 18个临床科室——从放射科、病理科到眼科和内窥镜科——涵盖CT、MRI、X光、超声、眼底摄影和显微镜等10余种影像模态。所有数据均可追溯至来源机构,并同时支持中英双语,是迄今为止训练通用医学AI最全面的基础数据集。
与所有先前的多模态医学数据集相比,GMAI-VL-5.5M在四个关键维度上独领风骚:规模(550万对,远超所有竞争者)、来源多样性(219个专业数据集)、双语支持(中英文)以及完整来源可追溯性。这一组合使得GMAI-VL-5.5M不仅在数量上更大,在质量上也更优——能够支持模型跨越此前任何数据集都无法覆盖的临床场景进行泛化。
GMAI-VL在精心整理的语料库上进行训练,涵盖医学说明数据(33.7%)、医学指令数据(31.8%)、通用文本(13.2%)、报告生成(4.6%)以及通用指令与说明数据。训练分三个阶段进行:第一阶段——浅层对齐(1170万对)仅训练投影层,在视觉编码器和大语言模型冻结的情况下对齐视觉和文本表示;第二阶段——深度对齐(1170万对)同时微调投影层和大语言模型,实现更深层的跨模态融合;第三阶段——指令微调(1000万对)专为临床指令遵循和精细医学推理而设计,覆盖多样化任务格式。
GMAI-VL在广泛的临床多模态任务中表现出色:胸部X光和CT扫描的详细图像描述、内窥镜和眼底图像的视觉问答、多选项临床推理(识别伪影类型、病变特征和鉴别诊断),以及跨模态医学推断。模型能够处理中英文提示、放射科和病理图像,以及结构化(多选)和开放式(自由文本)指令格式——验证了其训练语料库所保证的通用性。实验证实在医学视觉问答和诊断推理基准上达到了最先进的性能。
GMAI-VL通过同时解决数据稀缺和模型通用性这两个相互关联的挑战,为通用医学AI树立了新的范式。通过将219个专业医学数据集统一为单一的550万对语料库,并通过有原则的三阶段课程训练,GMAI-VL在多种医学视觉问答和诊断推理基准上取得了最先进的结果。这标志着从狭窄的特定任务医学AI向真正通用模型的重要跨越——该模型能够跨科室、跨模态、跨语言地协助临床医生。
Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He