首个统一医学图像分词器,服务于自回归合成与理解 — 基于跨 9 种模态的 3300 万+ 图像训练,在 30+ 基准上达到 SOTA
自回归建模已推动多模态 AI 取得重大进展,但其在医学影像领域的应用仍受限于缺乏统一的图像分词器——现有方案无法在异构模态间同时保留精细解剖结构和丰富的临床语义。当前方法要么针对像素级重建进行优化(如 VQGAN),却不具备判别性特征编码能力;要么捕获高层文本语义(如 CLIP),却无法保留空间结构与纹理信息 — 导致合成或理解任务二者至少有一项表现不足。
MedITok 是首个统一的医学图像分词器,同时编码低层结构信息(支撑忠实的图像重建与逼真合成)和高层临床语义(赋能多模态医学图像理解)。基于以视觉表征为桥梁的两阶段训练框架,MedITok 在涵盖 9 种模态的 3300 万+ 医学图像和 200 万+ 图文配对数据上进行训练,在涵盖重建、分类、生成和视觉问答 4 大任务族的 30+ 基准上均达到最先进性能。
MedITok 并未在单次训练中联合优化重建与语义目标(这可能导致梯度干扰和表征坍缩),而是提出了一种原则性的两阶段方法。第一阶段(视觉表征对齐)在 3340 万张无配对医学图像上训练编码器和解码器,以重建保真度为核心,同时引入来自预训练视觉编码器(BioMed-CLIP)的轻量语义约束。该阶段充分利用了现有方法忽略的海量无标注医学图像。第二阶段(文本语义对齐)在 240 万图文配对数据上精调编码器,将学习到的 token 与精细临床描述对齐,注入丰富的语义信息。这种渐进式策略避免了朴素联合训练固有的冲突,同时构建了真正统一的潜在空间。
MedITok 基于精心策展的语料库训练,涵盖 9 种成像模态:CT、皮肤镜、内窥镜、眼底摄影、MRI、病理、超声、X 光和 OCT。数据集经过严格的质量控制——包括分辨率、灰度范围、信息含量和临床相关性的自动筛选,以及人工审核以排除表格、图表等非临床内容。如此广泛的覆盖确保 MedITok 在从胸部 X 光到组织病理切片等多样化临床场景中学习到稳健的表征,而非局限于医学影像的某一狭窄子集。
MedITok 在 8 种模态的重建保真度(rFID)上实现平均排名第 1.0,即使采用 16× 下采样因子,仍优于仅使用 8× 下采样的分词器。在像素级指标之外,MedITok 在皮肤镜、眼底、病理、超声和 X 光的分类代理任务上取得了最高的诊断信息保留分数(mAP 和 AUC)。在用于评估高层语义编码能力的线性探测实验中,MedITok 一致优于通用领域和医学专用分词器。将 MedITok 集成到自回归管线后,可实现有竞争力的医学图像合成和视觉问答,成为下一代多模态医学模型的可扩展基础组件。
MedITok 建立了首个统一的医学图像基础分词器,证明了以视觉表征为桥梁、兼顾重建保真度与语义丰富性的原则性两阶段训练策略,能够同时在低层编码、高层理解、图像合成和视觉理解方面表现卓越。通过释放海量无配对医学图像与精选图文配对数据的潜力,MedITok 为下一代自回归医学 AI 模型提供了一个可扩展、模态无关的基础构建模块。
Chenglong Ma, Yuanfeng Ji, Jin Ye, Zilong Li, Chenhui Wang, Junzhi Ning, Wei Li, Lihao Liu, Qiushan Guo, Tianbin Li, Junjun He, Hongming Shan