GMAI GMAI Shanghai Artificial Intelligence Laboratory, China
  • 团队
  • 论文
  • 重点研究
  • 动态
  • 联系
EN 中文
← 项目 </div>
医学基础模型

MedITok:统一医学图像分词器

首个统一医学图像分词器,服务于自回归合成与理解 — 基于跨 9 种模态的 3300 万+ 图像训练,在 30+ 基准上达到 SOTA

由复旦大学与上海人工智能实验室主导,联合上海创新研究院、斯坦福大学和字节跳动 Seed 共同研发。
GitHub arXiv 论文
MedITok:包含视觉表征对齐和文本语义对齐的两阶段训练框架
图 1. MedITok 概览。(a) 包含编码器、量化器和解码器的架构设计。(b) 两阶段训练:第一阶段在 3300 万+ 无配对图像上进行视觉表征对齐,利用预训练视觉语义;第二阶段使用 200 万+ 临床图文配对数据进行文本语义对齐。(c) 各成像模态的训练数据统计。

自回归建模已推动多模态 AI 取得重大进展,但其在医学影像领域的应用仍受限于缺乏统一的图像分词器——现有方案无法在异构模态间同时保留精细解剖结构和丰富的临床语义。当前方法要么针对像素级重建进行优化(如 VQGAN),却不具备判别性特征编码能力;要么捕获高层文本语义(如 CLIP),却无法保留空间结构与纹理信息 — 导致合成或理解任务二者至少有一项表现不足。

MedITok 是首个统一的医学图像分词器,同时编码低层结构信息(支撑忠实的图像重建与逼真合成)和高层临床语义(赋能多模态医学图像理解)。基于以视觉表征为桥梁的两阶段训练框架,MedITok 在涵盖 9 种模态的 3300 万+ 医学图像和 200 万+ 图文配对数据上进行训练,在涵盖重建、分类、生成和视觉问答 4 大任务族的 30+ 基准上均达到最先进性能。

核心亮点

01 — 两阶段训练:先视觉对齐,后文本对齐

MedITok 并未在单次训练中联合优化重建与语义目标(这可能导致梯度干扰和表征坍缩),而是提出了一种原则性的两阶段方法。第一阶段(视觉表征对齐)在 3340 万张无配对医学图像上训练编码器和解码器,以重建保真度为核心,同时引入来自预训练视觉编码器(BioMed-CLIP)的轻量语义约束。该阶段充分利用了现有方法忽略的海量无标注医学图像。第二阶段(文本语义对齐)在 240 万图文配对数据上精调编码器,将学习到的 token 与精细临床描述对齐,注入丰富的语义信息。这种渐进式策略避免了朴素联合训练固有的冲突,同时构建了真正统一的潜在空间。

02 — 前所未有的规模与模态覆盖

MedITok 基于精心策展的语料库训练,涵盖 9 种成像模态:CT、皮肤镜、内窥镜、眼底摄影、MRI、病理、超声、X 光和 OCT。数据集经过严格的质量控制——包括分辨率、灰度范围、信息含量和临床相关性的自动筛选,以及人工审核以排除表格、图表等非临床内容。如此广泛的覆盖确保 MedITok 在从胸部 X 光到组织病理切片等多样化临床场景中学习到稳健的表征,而非局限于医学影像的某一狭窄子集。

03 — 在 30+ 基准和 4 大任务族上达到 SOTA

MedITok 在 8 种模态的重建保真度(rFID)上实现平均排名第 1.0,即使采用 16× 下采样因子,仍优于仅使用 8× 下采样的分词器。在像素级指标之外,MedITok 在皮肤镜、眼底、病理、超声和 X 光的分类代理任务上取得了最高的诊断信息保留分数(mAP 和 AUC)。在用于评估高层语义编码能力的线性探测实验中,MedITok 一致优于通用领域和医学专用分词器。将 MedITok 集成到自回归管线后,可实现有竞争力的医学图像合成和视觉问答,成为下一代多模态医学模型的可扩展基础组件。

结论

MedITok 建立了首个统一的医学图像基础分词器,证明了以视觉表征为桥梁、兼顾重建保真度与语义丰富性的原则性两阶段训练策略,能够同时在低层编码、高层理解、图像合成和视觉理解方面表现卓越。通过释放海量无配对医学图像与精选图文配对数据的潜力,MedITok 为下一代自回归医学 AI 模型提供了一个可扩展、模态无关的基础构建模块。

核心贡献

  • 提出了一种新颖的两阶段训练框架,以视觉表征对齐为桥梁,有效利用医学图像数据进行规模扩展,在无梯度干扰的条件下渐进构建统一的潜在空间。
  • 提出了 MedITok,首个在单一模型中统一编码低层结构细节和高层临床语义的医学图像分词器。
  • 在涵盖 9 种成像模态、4 大任务族(重建、分类、生成和 VQA)的 30+ 数据集上达到最先进性能,全面超越通用领域和医学专用分词器。
  • 策展了包含 3300 万+ 医学图像和 200 万+ 图文配对数据的大规模训练语料库,配以严格的质量控制,并提供开源模型、代码和数据访问。

作者

Chenglong Ma, Yuanfeng Ji, Jin Ye, Zilong Li, Chenhui Wang, Junzhi Ning, Wei Li, Lihao Liu, Qiushan Guo, Tianbin Li, Junjun He, Hongming Shan

GitHub 仓库 arXiv 论文 ← 返回项目列表
</div>
GMAI Lab (General Medical AI)
Shanghai Artificial Intelligence Laboratory, China
团队 论文 重点研究 动态 联系
GitHub Hugging Face Google Scholar LinkedIn 小红书 知乎
© 2026 GMAI Lab (General Medical AI). Built with Jekyll & GitHub Pages. 最后更新于 April 2026

BibTeX Citation