通过自然语言指令调度专用分割模型,结合从粗到精的数据集匹配与多模型结果集成
医学图像分割领域已取得显著进展,STU-Net 和 SAM-Med3D 等通用模型不断涌现。然而,单一模型难以覆盖所有模态和解剖目标的临床分割任务。MedSegAgent 采取了根本性不同的策略:它不训练一个庞大的单体模型,而是通过多智能体系统调度一组专用的、针对特定数据集训练的分割模型,整个过程由自然语言驱动。
给定一个自由文本分割请求,如"请帮我分割这张 MR 图像中的肝脏",MedSegAgent 首先解析查询以提取模态和目标信息,然后执行三级从粗到精的过滤:模态过滤缩小候选范围、解剖区域过滤确定相关身体部位、标签选择精确定位分割目标。匹配的模型并行执行,其输出通过排名感知集成策略进行融合。
当前系统集成了 23 个数据集,支持覆盖 CT、MRI、PET/CT 和超声模态的 343 个分割目标。这一架构具有天然的可扩展性:添加新的分割能力仅需注册一条数据集元数据条目和对应的训练模型,无需重新训练调度系统。
通过自然语言指令处理多样化的医学图像分割任务。添加新模态或目标仅需一条 JSON 元数据 — 无需重新训练核心系统。
从粗到精的过滤(模态 → 解剖区域 → 标签)自动从模型库中选择最合适的分割模型,无需人工干预。
多模型集成与排名感知融合提升可靠性。当多个候选模型匹配同一查询时,通过输出融合降低单一模型的失败风险。
MedSegAgent 证明了多智能体调度为训练越来越大的单体分割模型提供了一种实用且可扩展的替代方案。通过将语言理解与分割执行解耦,它将日益丰富的专用医学模型生态系统转化为统一的、语言驱动的分割服务。系统当前支持 23 个数据集和 343 个目标,其架构设计使每个新训练的模型都能立即扩展系统的能力而无需重新训练。
Ziyan Huang, Haoyu Wang, Jin Ye, Yuanfeng Ji, Xiaowei Hu, Lihao Liu, Zhikai Yang, Wei Li, Ming Hu, Yanzhou Su, Tianbin Li, Yun Gu, Shaoting Zhang, Yu Qiao, Lixu Gu, Junjun He
IEEE Journal of Biomedical and Health Informatics (JBHI), 2026