迈向通用三维医学图像分割模型
医学图像分割是现代医疗的关键技术,能够精确识别和描绘解剖结构与病理区域。然而,当前方法主要针对特定任务,需要为特定器官、病变或成像模态训练专门模型。基础模型(如 SAM)虽然革新了二维图像分割,但将其应用于三维医学体积数据面临巨大挑战——现有方法要么逐层处理三维数据从而丢失关键空间上下文,要么采用适配器方法无法完全捕获三维信息。
SAM-Med3D 通过完全可学习的三维架构从头训练来解决这些局限。其训练基础是 SA-Med3D-140K——迄今最大的体积医学图像分割数据集,包含 22,000 张三维图像和 143,000 个对应三维掩码,涵盖 28 种成像模态、245+ 种解剖目标类型和 6 大解剖类别。最终实现了一个通用模型,仅需少量三维提示点即可在多种模态下分割多样化结构和病变,Dice 分数相比 SAM 提升 60.12%。
不同于将三维能力通过适配器嫁接到冻结二维骨干网络的方法,SAM-Med3D 从零构建三个完全三维的组件:三维图像编码器、三维提示编码器和三维掩码解码器。初步实验对比了三种策略——冻结 SAM 骨干加三维适配器、二维到三维权重迁移微调、以及从头训练——完全三维方法在已见和未见目标上均明显胜出,有效避免了适配器方法固有的二维偏差。
SAM-Med3D 的基础是 SA-Med3D-140K,这一前所未有的数据集汇集了 70 个公共数据集和 24 个授权私有数据集,涵盖 CT、超声和 26 种 MR 序列,横跨 6 大解剖类别。严格的四步清洗流程确保质量:目标形状清洗(移除体积小于 1cm³ 的掩码)、体积大小清洗(排除背景超过 99% 的掩码)、降噪(消除小连通域)和歧义消除(将"肾脏"分离为"左肾"和"右肾"等对称结构)。训练集使用 131K 掩码,验证集保留 12 个完全未见数据源的数据集及全部超声数据,以严格测试跨模态泛化能力。
SAM-Med3D 总体 Dice 分数相比 SAM 提升 60.12%,推理时间仅为 SAM 的 1–26%。性能在 CT、MR 和超声模态上保持一致——值得注意的是,尽管从未在超声数据上训练,SAM-Med3D 在 US 图像上仍展现出竞争力。在 44 种主要器官和 5 种病变类型上,SAM-Med3D 相比 SAM-Med2D 的 Dice 改进最高达 68.2%。两阶段训练范式(131K 掩码上 800 轮预训练 + 75K 高质量掩码微调)构建了稳健的通用分割能力。
除直接分割任务外,SAM-Med3D 还展现出作为预训练基础模型的显著价值。当其图像编码器作为 UNETR 的特征提取器时,下游语义分割 Dice 分数提升最高达 5.63%——包括在此前未见的挑战赛数据集上。该模型所需提示点远少于二维方法(每体积 1 个点 vs 每层多个点),层间一致性显著更好,能生成具有临床意义的三维掩码。SAM-Med3D-turbo 是在 44 个数据集上微调的改进版本,进一步提升了实用性能。
SAM-Med3D 证明了单一的完全三维模型可以在多种成像模态下有效分割多样化的解剖结构和病变,且仅需最少的用户交互。通过在最大规模体积医学数据集(SA-Med3D-140K)上从头训练,该模型实现了从任务特定分割到通用医学 AI 的范式转变——既是强大的独立工具,也是可迁移的研究基础。数据集、代码和模型的开源发布加速了社区在更通用、更可及的医学 AI 方向上的集体进展。
Haoyu Wang, Sizheng Guo, Jin Ye, Zhongying Deng, Junlong Cheng, Tianbin Li, Jianpin Chen, Yanzhou Su, Ziyan Huang, Yiqing Shen, Bin Fu, Shaoting Zhang, Junjun He, Yu Qiao