医学图像分割

MedSegAgent：通用可扩展多智能体医学图像分割系统

通过自然语言指令调度专用分割模型，结合从粗到精的数据集匹配与多模型结果集成

上海人工智能实验室，联合上海交通大学。

发表于 IEEE Journal of Biomedical and Health Informatics (JBHI)，2026。

MedSegAgent 框架总览：自然语言查询解析、从粗到精的数据集匹配（模态 → 解剖区域 → 标签）、以及基于排名感知集成的最终分割结果。

医学图像分割领域已取得显著进展，STU-Net 和 SAM-Med3D 等通用模型不断涌现。然而，单一模型难以覆盖所有模态和解剖目标的临床分割任务。MedSegAgent 采取了根本性不同的策略：它不训练一个庞大的单体模型，而是通过多智能体系统调度一组专用的、针对特定数据集训练的分割模型，整个过程由自然语言驱动。

给定一个自由文本分割请求，如"请帮我分割这张 MR 图像中的肝脏"，MedSegAgent 首先解析查询以提取模态和目标信息，然后执行三级从粗到精的过滤：模态过滤缩小候选范围、解剖区域过滤确定相关身体部位、标签选择精确定位分割目标。匹配的模型并行执行，其输出通过排名感知集成策略进行融合。

当前系统集成了 23 个数据集，支持覆盖 CT、MRI、PET/CT 和超声模态的 343 个分割目标。这一架构具有天然的可扩展性：添加新的分割能力仅需注册一条数据集元数据条目和对应的训练模型，无需重新训练调度系统。

核心特性

通用且可扩展

通过自然语言指令处理多样化的医学图像分割任务。添加新模态或目标仅需一条 JSON 元数据 — 无需重新训练核心系统。

精准自动化

从粗到精的过滤（模态 → 解剖区域 → 标签）自动从模型库中选择最合适的分割模型，无需人工干预。

增强鲁棒性

多模型集成与排名感知融合提升可靠性。当多个候选模型匹配同一查询时，通过输出融合降低单一模型的失败风险。

支持的数据集（共 23 个）

数据集	模态	身体区域	代表性目标
TotalSegmentator v2	CT	全身	117 个结构（器官、血管、骨骼、脑）
TotalSegmentator MRI	MRI	全身	56 个结构（器官、血管、脊柱、肌肉）
AutoPET	PET/CT	全身	全身肿瘤部位
SegRap2023	CT	头颈部	45 个 OAR 结构、GTVp、GTVnd
BraTS21	MRI	头颈部	全肿瘤、肿瘤核心、增强肿瘤
AMOS22	MRI, CT	腹部	15 个腹部和盆腔结构
MM-WHS	MRI, CT	心脏	心腔、心肌、大血管
KiTS23	CT	腹部	肾脏、肾肿瘤、肾囊肿
+ 另外 15 个数据集覆盖胸部、腹部、头颈部区域…

结论

MedSegAgent 证明了多智能体调度为训练越来越大的单体分割模型提供了一种实用且可扩展的替代方案。通过将语言理解与分割执行解耦，它将日益丰富的专用医学模型生态系统转化为统一的、语言驱动的分割服务。系统当前支持 23 个数据集和 343 个目标，其架构设计使每个新训练的模型都能立即扩展系统的能力而无需重新训练。

核心贡献

提出 MedSegAgent，首个由自然语言驱动的多智能体医学图像分割系统，集成 23 个数据集和 343 个分割目标。
设计了从粗到精的数据集匹配流水线（模态 → 解剖区域 → 标签），自动为任意查询选择最佳分割模型。
引入排名感知集成策略，融合多个匹配模型的输出以提升分割鲁棒性和可靠性。
构建可扩展架构，添加新分割能力仅需一条 JSON 元数据条目，无需重新训练调度系统。

作者

Ziyan Huang, Haoyu Wang, Jin Ye, Yuanfeng Ji, Xiaowei Hu, Lihao Liu, Zhikai Yang, Wei Li, Ming Hu, Yanzhou Su, Tianbin Li, Yun Gu, Shaoting Zhang, Yu Qiao, Lixu Gu, Junjun He

IEEE Journal of Biomedical and Health Informatics (JBHI), 2026

GitHub 仓库 IEEE Xplore 论文 ← 返回项目列表

</div>