临床 AI · 计算病理学

SlideChat

面向全切片病理图像理解的大型视觉语言助手

上海人工智能实验室主导，联合厦门大学、华东师范大学、斯坦福大学、莫纳什大学共同研发。

SlideChat 总览：Gigapixel WSI 被切割为 224×224 图像块，经 CONCH（块级）和 LongNet（切片级）编码后投影至 LLM，支持病理对话推理。训练分两阶段：4.2K WSI 描述对齐域，176K 视觉问答对指令微调。

全切片图像（WSI）是数字病理学的金标准，单张扫描可超过 100,000 × 100,000 像素，完整保留了临床诊断所需的组织空间上下文。然而，现有多模态大语言模型（MLLMs）普遍局限于图像块级别（patch-level）分析，丢失了病理医生赖以判断的全局组织结构与跨区域关联信息。SlideChat 是首个专为 Gigapixel 全切片图像整体理解而设计的视觉语言助手，以可扩展的临床级架构填补了这一关键空白。论文已被 CVPR 2025 接收。

为支撑 SlideChat 的训练，研究团队构建了 SlideInstruction——迄今最大的 WSI 指令跟随数据集，包含 4.2K 张 WSI 配对描述和 176K 条视觉问答对，源自 4,915 份 TCGA 病理报告，通过 GPT-4 引导的自动化流程精心筛选。此外，团队还构建了 SlideBench——一个覆盖多种癌症类型、经病理专家审核的多模态 WSI 评测基准。SlideChat 在 22 个评测任务中的 18 个取得当前最优性能。

🌟 核心亮点

01 — SlideInstruction：最大规模 WSI 指令跟随数据集

研究团队从 TCGA 数据库的 4,915 份 WSI-报告对中精心筛选，覆盖 4,028 名患者、10 种癌症类型。借助 GPT-4 分三阶段生成高质量指令数据：报告净化（去除行政信息与技术噪声）、描述生成（4,181 条简洁的临床 WSI 描述）、问答对生成（175,753 条覆盖 13 个细分类别的问答对）。这 13 个细分类别分属三大临床领域——显微形态、病理诊断与临床指导，完整映射真实病理工作流程。

SlideInstruction 生成流程：利用 GPT-4 从 TCGA 病理报告中提取 WSI-描述对及结构化问答对（开放式与封闭式），涵盖显微形态、诊断与临床三大场景。

02 — 面向 Gigapixel 全切片理解的四组件架构

SlideChat 将每张 WSI 在 20× 放大倍数下切割为不重叠的 224×224 图像块。冻结的 CONCH 块级编码器提取细粒度局部特征（细胞结构、核形态）；基于 LongNet 稀疏注意力机制的切片级编码器处理完整 patch token 序列——支持远超标准 Transformer 的序列长度——生成捕获全局组织结构的上下文嵌入；多模态投影器将视觉特征对齐至语言模型的嵌入空间；Qwen2.5-7B-Instruct 作为骨干 LLM。训练分两阶段进行：跨域对齐（仅更新投影器与切片编码器，使用 4.2K 描述数据），再到视觉指令学习（全组件可训练，使用 176K 问答对）。

SlideChat 整体架构。WSI 图像块由 CONCH 编码（块级），经 LongNet 切片级编码器捕获全局上下文，再投影至 LLM 嵌入空间以支持对话推理。

03 — 基准测试：准确率 81.17%，22 任务中 18 个达 SOTA

SlideChat 在 SlideBench-VQA（TCGA）上以 81.17% 综合准确率排名第一，超越第二名 13.47 个百分点；零样本泛化测试 SlideBench-VQA（BCNB）达 54.14%。对比通用 MLLMs（GPT-4o patch 57.91%；缩略图 34.07%）和专用模型（MedDr 67.70%），SlideChat 的全切片整体理解能力带来了图像块方法无法企及的性能。三大临床领域全面领先：显微形态（87.64%）、病理诊断（73.27%）、临床应用（84.26%）。

SlideBench-VQA 雷达图对比（左：TCGA，右：BCNB）。SlideChat（紫色）在所有任务类别全面领先——细胞形态特征、疾病检测、分期分级和零样本乳腺癌分类均大幅超越所有基线模型。

04 — 临床对话式 AI：多轮诊断推理

SlideChat 支持对完整全切片图像进行多轮对话推理，使病理医生能够针对具体发现追问后续问题。临床示例包括：膀胱肿瘤分析（识别淋巴血管侵犯、细胞分化程度、肿瘤类型、解剖侵犯层次）和乳腺癌评估（淋巴结转移状态、预后预测、最大径 pT 分期、治疗方案选择）。模型结合局部细胞学细节与全局组织结构，给出临床上站得住脚、情境准确的回答——这是纯图像块系统从根本上无法做到的。

SlideChat 实战演示：（C）膀胱肿瘤 WSI——准确识别淋巴血管侵犯、细胞分化等级、肿瘤分类及解剖侵犯层次；（D）乳腺癌 WSI——淋巴结转移状态、预后评估、pT 分期及治疗方案选择。

结语

SlideChat 代表计算病理学的里程碑式突破——首个通过对话式 AI 实现真正 Gigapixel 全切片图像理解的系统。通过将 CONCH 块级细胞精度与 LongNet 切片级上下文推理相结合，并以大规模 SlideInstruction 数据集为训练基础，SlideChat 填补了图像块分析与临床意义全切片解读之间的关键鸿沟。CVPR 2025 收录与 18/22 任务的 SOTA 成绩，加之模型、数据集、评测基准的全面开源，为 AI 辅助病理诊断、科研探索与医学教育奠定了全新基础。

主要贡献

SlideInstruction：最大规模 WSI 指令跟随数据集，含 4.2K WSI-描述对与 176K 视觉问答对，跨 13 个临床类别，源自 4,915 份 TCGA 病理报告，GPT-4 辅助生成。
SlideChat：首个面向 Gigapixel WSI 理解的视觉语言助手——CONCH 块级编码器 + LongNet 切片编码器 + LLM，在 22 个任务中 18 个达 SOTA（CVPR 2025）。
SlideBench：综合性 WSI 多模态评测基准，涵盖 TCGA（10 → 31 种癌症）、BCNB、CPTAC、HISTAI 子集的描述与问答评测，全部经病理专家审核。
全面开源：SlideChat 模型权重、SlideInstruction 数据集与 SlideBench 评测框架全部公开，推动计算病理学研究生态建设。

作者团队

Ying Chen*、Guoan Wang*、Yuanfeng Ji*†、Yanjun Li、Jin Ye、Tianbin Li、Ming Hu、Rongshan Yu、Yu Qiao、Junjun He†
* 同等贡献 · † 通讯作者
上海人工智能实验室 · 厦门大学 · 华东师范大学 · 斯坦福大学 · 莫纳什大学

GitHub 仓库 arXiv 论文 🤗 模型 🤗 数据集 ← 返回项目列表

</div>