UniMedVL: Unifying Medical Multimodal Understanding and Generation through Observation-Knowledge-Analysis

Junzhi Ning1*, Wei Li1,3*, Cheng Tang1,4*, Jiashi Lin1, Chenglong Ma2,5,
Chaoyang Zhang2, Jiyao Liu1,5, Ying Chen1, Shujian Gao1,5, Lihao Liu1,
Yuandong Pu1,3, Huihui Xu1,11, Chenhui Gou7, Ziyan Huang1, Yi Xin1,2,
Qi Qin1, Zhongying Deng6, Diping Song1, Bin Fu1, Guang Yang9,
Yuanfeng Ji10, Tianbin Li1, Yanzhou Su8, Jin Ye1,7, Shixiang Tang1, Ming Hu1,7,
Junjun He1,2†
1Shanghai Artificial Intelligence Laboratory, 2Shanghai Innovation Institute, 3Shanghai Jiao Tong University,
4Shanghai Institute of Optics and Fine Mechanics, 5Fudan University, 6University of Cambridge, 7Monash University,
8Fuzhou University, 9Imperial College London, 10The University of Hong Kong,
11The Hong Kong University of Science and Technology
*Equal contribution. Corresponding author.
UniMedVL Overview

Abstract

临床诊断需要能够处理多模态医学输入(图像、病史、实验室结果)并生成多样化输出(文本报告和视觉内容如标注、分割掩码和图像)的模型。然而,现有医学AI系统割裂了这一统一过程:医学图像理解模型能解释图像但无法生成视觉输出,而医学图像生成模型能合成图像但无法提供文本解释。这导致了数据表示、特征集成和任务级多模态能力的缺失。

为此,我们提出了一个多层次框架,通过观察-知识-分析(OKA)范式模拟临床诊断流程。具体来说:在观察层面,我们构建了包含超过560万样本的UniMed-5M数据集,将多样化的单模态数据重新格式化为多模态配对数据;在知识层面,我们提出了渐进式课程学习,系统性地引入医学多模态知识;在分析层面,我们推出了UniMedVL——基于OKA范式设计的医学统一多模态模型,在单一架构内全面实现图像理解与生成任务的综合分析。

UniMedVL在5个医学图像理解基准上取得卓越性能,同时在8种医学成像模态的生成质量上媲美专用模型。更重要的是,我们的统一架构实现了双向知识共享——生成任务增强了视觉理解特征,证明了在单一医学框架内整合传统上分离的能力能够解锁跨多样化临床场景的改进。

核心创新

🏥 临床诊断:一个多模态过程

考虑一位放射科医生检查疑似肺部病变的场景:他们系统性地处理胸部X光片(视觉)、既往CT扫描(跨模态比较)和患者病史(文本),以生成多种互补的输出:

  • 详细报告:描述发现和推理过程
  • 视觉标注:突出显示关注的特定区域
  • 对比可视化:用于治疗规划和手术指导

这体现了临床诊断需要统一处理多模态输入以生成多样化的多模态输出,单独的文本报告(缺乏空间定位)或单独的视觉标注(缺乏推理上下文)都不足够。

🔴 现有医学AI的三层碎片化问题

尽管多模态融合已被证明能显著改善临床决策,但当前医学AI在三个关键层面仍然存在碎片化:

① 数据层面:医学数据集仍然以单模态为主,尽管有明确证据表明多模态整合能显著提高诊断准确性。大多数数据集缺乏统一训练所需的成对多模态结构。

② 特征层面:当前方法缺乏系统化的渐进式训练策略来学习深层跨模态关系。大多数方法只是简单拼接特征,而不是从基础模式识别逐步构建到复杂的多模态推理。

③ 任务层面:虽然通用领域模型在统一架构方面取得了进展,但医学领域仍然缺乏真正统一的模型。例如,HealthGPT虽然展示了理解和生成能力,但需要重新加载不同的模型checkpoint才能切换任务类型——这一限制阻碍了临床工作流中的无缝多任务操作。

📊 性能差距:当前医学AI系统在诊断挑战中的准确率不到60%,而人类专家的准确率超过90%,这突显了统一方法的迫切需求。

✅ UniMedVL: 跨8种模态的医学数据统一架构

UniMedVL通过OKA框架在单一模型checkpoint内全面实现医学多模态的理解与生成能力。一旦加载模型,即可无缝处理:

  • 📖 理解任务: 医学VQA、图像描述、诊断报告生成
  • 🎨 生成任务: 文本到图像合成、跨模态转换(CT↔MRI)、虚拟染色
  • 🔀 交织任务: 反事实生成(同时生成图像+解释文本)、超分辨率、分割

关键优势:无需离线切换checkpoint,单一模型即可完成所有任务 ✨

核心数据

5.6M+

训练样本

9种医学成像模态

96.29

平均gFID

媲美专用生成模型

OKA框架:观察-知识-分析

UniMedVL遵循临床工作流引导的三层次框架,模拟医生处理医学信息的过程:

  1. 观察层(数据):构建UniMed-5M数据集,包含质量控制和专家验证
  2. 知识层(特征):渐进式课程学习和跨模态知识融合
  3. 分析层(任务):统一架构生成多模态输出(报告、图像、标注)

数据流程与模型架构

Architecture Overview

完整的数据处理流程和模型架构概览


渐进式训练策略

三阶段渐进式课程学习:

🔧 阶段1 - 基础训练

  • 85K训练步数
  • 基础医学模式识别
  • 视觉-语言对齐
  • 数据比例: 75% I2T, 25% T2I

📚 阶段2 - 指令微调

  • 120K训练步数
  • 跨模态理解增强
  • 医学专业知识发展
  • 数据比例: 40% I2T, 45% T2I, 10% 交织任务

🚀 阶段3 - 统一训练

  • 70K训练步数
  • 高级多模态合成
  • 交织任务精通
  • 数据比例: 37% I2T, 35% T2I, 25% 交织任务

性能亮点

单一模型,全面覆盖理解、生成与交织任务

📖 医学图像理解

PathVQA

53.5%

vs. HealthGPT-L14 44.4%

OmniMedVQA

85.8%

vs. GMAI-VL 88.5%

VQA-RAD

61.9%

vs. GMAI-VL 66.3%

GMAI-MMBench

60.75%

综合医学多模态评测

🎨 医学图像生成

胸部X光 (CXR)

73.04

gFID

病理切片 (HIS)

149.01

gFID

眼底照片 (CFP)

53.20

gFID

CT扫描

73.04

gFID

MRI磁共振

90.36

gFID

OCT光学相干

99.27

gFID

超声影像

95.38

gFID

内窥镜

133.11

gFID

平均gFID: 96.29 BioMedCLIP: 0.706

🔀 交织任务(理解+生成)

虚拟免疫组化染色

20.27 / 0.456

PSNR / SSIM

MRI超分辨率 (4×)

27.29 / 0.890

PSNR / SSIM

跨模态合成 (T2↔FLAIR)

25.07 / 0.882

平均 PSNR / SSIM

反事实生成(图像+文本解释)

gFID: 27.17 | AUROC: 0.797

BLEU-3: 0.2641 | METEOR: 0.4486 | ROUGE-L: 0.4649

🌟 统一架构的临床优势

无缝任务切换

无需切换checkpoint
即可完成所有任务

双向知识共享

生成任务增强理解
理解任务优化生成

临床工作流整合

符合医生实际诊断
观察-知识-分析流程

实验结果可视化

性能可视化对比

Performance Comparison

不同训练阶段和模态下的全面性能对比

多模态任务演示

Multimodal Results

UniMedVL多模态能力的全面可视化展示

💬 医学视觉问答

VQA Examples

准确率: SLAKE 75.4% | PathVQA 53.5%

📄 医学报告生成

Report Generation

生成详细的医学诊断报告

🎨 文本驱动医学图像生成

T2I Example 1
T2I Example 2

跨8种医学成像模态的高质量文本驱动图像生成
平均gFID: 96.29 | BioMedCLIP: 0.706

🔬 VAE重建质量

VAE Reconstruction

跨多种医学成像模态的定性对比

🔬 医学成像模态

UniMedVL支持的八种不同医学成像模态

胸部X光

胸部X光 (CXR)

CT扫描

CT扫描

MRI磁共振

MRI磁共振

超声影像

超声影像

OCT光学相干

OCT光学相干断层扫描

眼底照片

眼底照片

病理切片

病理切片 (HIS)

内窥镜

内窥镜