面向全切片病理图像理解的大型视觉语言助手
全切片图像(WSI)是数字病理学的金标准,单张扫描可超过 100,000 × 100,000 像素,完整保留了临床诊断所需的组织空间上下文。然而,现有多模态大语言模型(MLLMs)普遍局限于图像块级别(patch-level)分析,丢失了病理医生赖以判断的全局组织结构与跨区域关联信息。SlideChat 是首个专为 Gigapixel 全切片图像整体理解而设计的视觉语言助手,以可扩展的临床级架构填补了这一关键空白。论文已被 CVPR 2025 接收。
为支撑 SlideChat 的训练,研究团队构建了 SlideInstruction——迄今最大的 WSI 指令跟随数据集,包含 4.2K 张 WSI 配对描述和 176K 条视觉问答对,源自 4,915 份 TCGA 病理报告,通过 GPT-4 引导的自动化流程精心筛选。此外,团队还构建了 SlideBench——一个覆盖多种癌症类型、经病理专家审核的多模态 WSI 评测基准。SlideChat 在 22 个评测任务中的 18 个取得当前最优性能。
研究团队从 TCGA 数据库的 4,915 份 WSI-报告对中精心筛选,覆盖 4,028 名患者、10 种癌症类型。借助 GPT-4 分三阶段生成高质量指令数据:报告净化(去除行政信息与技术噪声)、描述生成(4,181 条简洁的临床 WSI 描述)、问答对生成(175,753 条覆盖 13 个细分类别的问答对)。这 13 个细分类别分属三大临床领域——显微形态、病理诊断与临床指导,完整映射真实病理工作流程。
SlideChat 将每张 WSI 在 20× 放大倍数下切割为不重叠的 224×224 图像块。冻结的 CONCH 块级编码器提取细粒度局部特征(细胞结构、核形态);基于 LongNet 稀疏注意力机制的切片级编码器处理完整 patch token 序列——支持远超标准 Transformer 的序列长度——生成捕获全局组织结构的上下文嵌入;多模态投影器将视觉特征对齐至语言模型的嵌入空间;Qwen2.5-7B-Instruct 作为骨干 LLM。训练分两阶段进行:跨域对齐(仅更新投影器与切片编码器,使用 4.2K 描述数据),再到视觉指令学习(全组件可训练,使用 176K 问答对)。
SlideChat 在 SlideBench-VQA(TCGA)上以 81.17% 综合准确率排名第一,超越第二名 13.47 个百分点;零样本泛化测试 SlideBench-VQA(BCNB)达 54.14%。对比通用 MLLMs(GPT-4o patch 57.91%;缩略图 34.07%)和专用模型(MedDr 67.70%),SlideChat 的全切片整体理解能力带来了图像块方法无法企及的性能。三大临床领域全面领先:显微形态(87.64%)、病理诊断(73.27%)、临床应用(84.26%)。
SlideChat 支持对完整全切片图像进行多轮对话推理,使病理医生能够针对具体发现追问后续问题。临床示例包括:膀胱肿瘤分析(识别淋巴血管侵犯、细胞分化程度、肿瘤类型、解剖侵犯层次)和乳腺癌评估(淋巴结转移状态、预后预测、最大径 pT 分期、治疗方案选择)。模型结合局部细胞学细节与全局组织结构,给出临床上站得住脚、情境准确的回答——这是纯图像块系统从根本上无法做到的。
SlideChat 代表计算病理学的里程碑式突破——首个通过对话式 AI 实现真正 Gigapixel 全切片图像理解的系统。通过将 CONCH 块级细胞精度与 LongNet 切片级上下文推理相结合,并以大规模 SlideInstruction 数据集为训练基础,SlideChat 填补了图像块分析与临床意义全切片解读之间的关键鸿沟。CVPR 2025 收录与 18/22 任务的 SOTA 成绩,加之模型、数据集、评测基准的全面开源,为 AI 辅助病理诊断、科研探索与医学教育奠定了全新基础。
Ying Chen*、Guoan Wang*、Yuanfeng Ji*†、Yanjun Li、Jin Ye、Tianbin Li、Ming Hu、Rongshan Yu、Yu Qiao、Junjun He† * 同等贡献 · † 通讯作者 上海人工智能实验室 · 厦门大学 · 华东师范大学 · 斯坦福大学 · 莫纳什大学