医学多模态大模型

UniMedVL：统一医学多模态理解与生成

首个通过"观察-知识-分析"框架在单一架构内耦合图像理解与生成的统一医学模型

由上海人工智能实验室主导，联合复旦大学、上海创新研究院、斯坦福大学和字节跳动 Seed 共同研究。

图1. UniMedVL 与观察-知识-分析（OKA）框架总览。与仅能生成图像而无法提供诊断解释的模型或仅能提供文本解读而无法输出视觉内容的单一能力模型不同，UniMedVL 将理解与生成耦合，实现相互增强。

医学诊断从根本上要求模型能够处理多模态医学输入——影像、病史、症状描述——并产生包括文本报告和标注或分割掩码等视觉内容在内的多样化输出。然而，现有的医学AI模型将这一本应统一的流程割裂开来：图像理解模型能解读影像却无法产生视觉输出，而图像生成模型能产生视觉输出却无法提供文本解释。

UniMedVL 通过名为观察-知识-分析（OKA）的多层级框架解决了这一问题。在观察层面，我们构建了 UniMed-5M，一个包含超过560万样本的数据集，将多样化的单模态数据重新组织为跨8种影像模态的多模态配对。在知识层面，我们提出了渐进式课程学习策略，使模型同步学习医学多模态理解与生成知识。在分析层面，我们推出了 UniMedVL——首个在单一架构内同时处理图像理解与生成任务的医学统一模型，无需手动重载模型检查点。

核心亮点

01 — UniMed-5M：大规模多模态医学数据集

UniMed-5M 包含超过 560万 个多模态医学样本，覆盖 8种主要影像模态，通过严格的质量控制流程构建。原始数据集经过分辨率和文本质量的粗筛，随后利用 MedGemma-27b 和 MedSigLIP 进行医学对齐评分以确保临床相关性。由五位医学专家进行验证，评分者间一致性良好（κ > 0.80）。该数据集将多样化的单模态数据重新组织为统一的多模态输入-输出配对，包含5种交错任务：医学图像提示分割、超分辨率、反事实生成、虚拟免疫组化染色和跨模态合成。

02 — 渐进式课程学习

UniMedVL 通过精心设计的三阶段课程进行训练，逐步从基础医学模式识别提升至复杂的多模态能力。第一阶段——基础训练在完整的 UniMed-5M 数据集上建立基本的医学图像理解与生成能力。第二阶段——指令微调通过蒸馏思维链（DCOT）改善理解任务的指令遵循能力，并通过描述增强生成（CAG）提升生成任务的表现。第三阶段——统一多模态训练在结合理解与生成的复杂交错任务上进行微调，使两条通路之间实现双向知识共享。

03 — 最先进的统一性能

UniMedVL 总参数量为14B（推理时激活7B），在统一模型中取得了 5项医学图像理解基准上的最优性能——在 OmniMedVQA 上得分85.8%（对比 HealthGPT-L14 的74.4%），在 GMAI-MMBench 上达到60.75%——同时在 8种医学影像模态的生成质量上匹配专用模型，平均 gFID 为96.29，BioMedCLIP 得分为0.706。关键的消融实验证实，联合训练始终优于单任务变体，验证了理解与生成能力在统一架构中相互增强。

结论

UniMedVL 为统一医学AI建立了新范式，在单一模型中同时执行图像理解与生成。通过在超过500万医学样本上的广泛实验验证，UniMedVL 证明了 OKA 框架——结合大规模多模态数据构建、渐进式课程学习和统一架构——能够实现双向知识共享，同时提升理解和生成质量。这项工作代表着迈向真正集成化医学AI系统的关键一步，其中理解与生成能力协同增强临床工作流程。

核心贡献

构建了 UniMed-5M——一个包含超过560万多模态医学样本、覆盖8种影像模态的大规模数据集，通过严格的质量控制将多样化的单模态数据集重新组织为统一的多模态输入-输出配对。
设计了渐进式课程学习，一种三阶段训练范式（基础训练 → 指令微调 → 统一多模态训练），系统性地构建跨模态理解-生成能力，并实现双向知识迁移。
提出了 UniMedVL，首个在单一架构内处理多模态输入并同时生成文本和视觉输出的医学统一多模态模型——无需为不同任务类型加载独立的模型检查点。
在统一模型中取得了医学 VQA 基准上的最先进性能，同时在8种影像模态的生成质量上匹配专用模型，证明联合训练带来的是相互增强而非性能折衷。

作者

Junzhi Ning*, Wei Li*, Cheng Tang*, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
* 同等贡献（共同第一作者）

arXiv 论文 GitHub 仓库 ← 返回项目列表

</div>