首个通过"观察-知识-分析"框架在单一架构内耦合图像理解与生成的统一医学模型
医学诊断从根本上要求模型能够处理多模态医学输入——影像、病史、症状描述——并产生包括文本报告和标注或分割掩码等视觉内容在内的多样化输出。然而,现有的医学AI模型将这一本应统一的流程割裂开来:图像理解模型能解读影像却无法产生视觉输出,而图像生成模型能产生视觉输出却无法提供文本解释。
UniMedVL 通过名为观察-知识-分析(OKA)的多层级框架解决了这一问题。在观察层面,我们构建了 UniMed-5M,一个包含超过560万样本的数据集,将多样化的单模态数据重新组织为跨8种影像模态的多模态配对。在知识层面,我们提出了渐进式课程学习策略,使模型同步学习医学多模态理解与生成知识。在分析层面,我们推出了 UniMedVL——首个在单一架构内同时处理图像理解与生成任务的医学统一模型,无需手动重载模型检查点。
UniMed-5M 包含超过 560万 个多模态医学样本,覆盖 8种主要影像模态,通过严格的质量控制流程构建。原始数据集经过分辨率和文本质量的粗筛,随后利用 MedGemma-27b 和 MedSigLIP 进行医学对齐评分以确保临床相关性。由五位医学专家进行验证,评分者间一致性良好(κ > 0.80)。该数据集将多样化的单模态数据重新组织为统一的多模态输入-输出配对,包含5种交错任务:医学图像提示分割、超分辨率、反事实生成、虚拟免疫组化染色和跨模态合成。
UniMedVL 通过精心设计的三阶段课程进行训练,逐步从基础医学模式识别提升至复杂的多模态能力。第一阶段——基础训练在完整的 UniMed-5M 数据集上建立基本的医学图像理解与生成能力。第二阶段——指令微调通过蒸馏思维链(DCOT)改善理解任务的指令遵循能力,并通过描述增强生成(CAG)提升生成任务的表现。第三阶段——统一多模态训练在结合理解与生成的复杂交错任务上进行微调,使两条通路之间实现双向知识共享。
UniMedVL 总参数量为14B(推理时激活7B),在统一模型中取得了 5项医学图像理解基准上的最优性能——在 OmniMedVQA 上得分85.8%(对比 HealthGPT-L14 的74.4%),在 GMAI-MMBench 上达到60.75%——同时在 8种医学影像模态的生成质量上匹配专用模型,平均 gFID 为96.29,BioMedCLIP 得分为0.706。关键的消融实验证实,联合训练始终优于单任务变体,验证了理解与生成能力在统一架构中相互增强。
UniMedVL 为统一医学AI建立了新范式,在单一模型中同时执行图像理解与生成。通过在超过500万医学样本上的广泛实验验证,UniMedVL 证明了 OKA 框架——结合大规模多模态数据构建、渐进式课程学习和统一架构——能够实现双向知识共享,同时提升理解和生成质量。这项工作代表着迈向真正集成化医学AI系统的关键一步,其中理解与生成能力协同增强临床工作流程。
Junzhi Ning*, Wei Li*, Cheng Tang*, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He * 同等贡献(共同第一作者)