GMAI GMAI Shanghai Artificial Intelligence Laboratory, China
  • 团队
  • 论文
  • 重点研究
  • 动态
  • 联系
EN 中文
← 项目 </div>
临床 AI · 计算病理学

SlideChat

面向全切片病理图像理解的大型视觉语言助手

上海人工智能实验室主导,联合厦门大学、华东师范大学、斯坦福大学、莫纳什大学共同研发。
GitHub arXiv 论文 🤗 模型权重 🤗 数据集 🍎 项目主页
SlideChat 架构 — WSI 切块、CONCH 块级编码器、LongNet 切片编码器、多模态投影器、LLM 与两阶段训练
SlideChat 总览:Gigapixel WSI 被切割为 224×224 图像块,经 CONCH(块级)和 LongNet(切片级)编码后投影至 LLM,支持病理对话推理。训练分两阶段:4.2K WSI 描述对齐域,176K 视觉问答对指令微调。

全切片图像(WSI)是数字病理学的金标准,单张扫描可超过 100,000 × 100,000 像素,完整保留了临床诊断所需的组织空间上下文。然而,现有多模态大语言模型(MLLMs)普遍局限于图像块级别(patch-level)分析,丢失了病理医生赖以判断的全局组织结构与跨区域关联信息。SlideChat 是首个专为 Gigapixel 全切片图像整体理解而设计的视觉语言助手,以可扩展的临床级架构填补了这一关键空白。论文已被 CVPR 2025 接收。

为支撑 SlideChat 的训练,研究团队构建了 SlideInstruction——迄今最大的 WSI 指令跟随数据集,包含 4.2K 张 WSI 配对描述和 176K 条视觉问答对,源自 4,915 份 TCGA 病理报告,通过 GPT-4 引导的自动化流程精心筛选。此外,团队还构建了 SlideBench——一个覆盖多种癌症类型、经病理专家审核的多模态 WSI 评测基准。SlideChat 在 22 个评测任务中的 18 个取得当前最优性能。

🌟 核心亮点

01 — SlideInstruction:最大规模 WSI 指令跟随数据集

研究团队从 TCGA 数据库的 4,915 份 WSI-报告对中精心筛选,覆盖 4,028 名患者、10 种癌症类型。借助 GPT-4 分三阶段生成高质量指令数据:报告净化(去除行政信息与技术噪声)、描述生成(4,181 条简洁的临床 WSI 描述)、问答对生成(175,753 条覆盖 13 个细分类别的问答对)。这 13 个细分类别分属三大临床领域——显微形态、病理诊断与临床指导,完整映射真实病理工作流程。

SlideInstruction 数据生成流程:GPT-4 从病理报告中提取 WSI 描述与问答对
SlideInstruction 生成流程:利用 GPT-4 从 TCGA 病理报告中提取 WSI-描述对及结构化问答对(开放式与封闭式),涵盖显微形态、诊断与临床三大场景。

02 — 面向 Gigapixel 全切片理解的四组件架构

SlideChat 将每张 WSI 在 20× 放大倍数下切割为不重叠的 224×224 图像块。冻结的 CONCH 块级编码器提取细粒度局部特征(细胞结构、核形态);基于 LongNet 稀疏注意力机制的切片级编码器处理完整 patch token 序列——支持远超标准 Transformer 的序列长度——生成捕获全局组织结构的上下文嵌入;多模态投影器将视觉特征对齐至语言模型的嵌入空间;Qwen2.5-7B-Instruct 作为骨干 LLM。训练分两阶段进行:跨域对齐(仅更新投影器与切片编码器,使用 4.2K 描述数据),再到视觉指令学习(全组件可训练,使用 176K 问答对)。

SlideChat 架构:块级编码器(CONCH)+ LongNet 切片级编码器 + 多模态投影器 + LLM
SlideChat 整体架构。WSI 图像块由 CONCH 编码(块级),经 LongNet 切片级编码器捕获全局上下文,再投影至 LLM 嵌入空间以支持对话推理。

03 — 基准测试:准确率 81.17%,22 任务中 18 个达 SOTA

SlideChat 在 SlideBench-VQA(TCGA)上以 81.17% 综合准确率排名第一,超越第二名 13.47 个百分点;零样本泛化测试 SlideBench-VQA(BCNB)达 54.14%。对比通用 MLLMs(GPT-4o patch 57.91%;缩略图 34.07%)和专用模型(MedDr 67.70%),SlideChat 的全切片整体理解能力带来了图像块方法无法企及的性能。三大临床领域全面领先:显微形态(87.64%)、病理诊断(73.27%)、临床应用(84.26%)。

SlideBench 雷达图对比:SlideChat vs GPT-4o、MedDr、LLaVA-Med、Quilt-LLaVA(TCGA 和 BCNB 基准)
SlideBench-VQA 雷达图对比(左:TCGA,右:BCNB)。SlideChat(紫色)在所有任务类别全面领先——细胞形态特征、疾病检测、分期分级和零样本乳腺癌分类均大幅超越所有基线模型。

04 — 临床对话式 AI:多轮诊断推理

SlideChat 支持对完整全切片图像进行多轮对话推理,使病理医生能够针对具体发现追问后续问题。临床示例包括:膀胱肿瘤分析(识别淋巴血管侵犯、细胞分化程度、肿瘤类型、解剖侵犯层次)和乳腺癌评估(淋巴结转移状态、预后预测、最大径 pT 分期、治疗方案选择)。模型结合局部细胞学细节与全局组织结构,给出临床上站得住脚、情境准确的回答——这是纯图像块系统从根本上无法做到的。

SlideChat 临床对话:膀胱肿瘤与乳腺癌多轮诊断问答示例
SlideChat 实战演示:(C)膀胱肿瘤 WSI——准确识别淋巴血管侵犯、细胞分化等级、肿瘤分类及解剖侵犯层次;(D)乳腺癌 WSI——淋巴结转移状态、预后评估、pT 分期及治疗方案选择。
结语

SlideChat 代表计算病理学的里程碑式突破——首个通过对话式 AI 实现真正 Gigapixel 全切片图像理解的系统。通过将 CONCH 块级细胞精度与 LongNet 切片级上下文推理相结合,并以大规模 SlideInstruction 数据集为训练基础,SlideChat 填补了图像块分析与临床意义全切片解读之间的关键鸿沟。CVPR 2025 收录与 18/22 任务的 SOTA 成绩,加之模型、数据集、评测基准的全面开源,为 AI 辅助病理诊断、科研探索与医学教育奠定了全新基础。

主要贡献

  • SlideInstruction:最大规模 WSI 指令跟随数据集,含 4.2K WSI-描述对与 176K 视觉问答对,跨 13 个临床类别,源自 4,915 份 TCGA 病理报告,GPT-4 辅助生成。
  • SlideChat:首个面向 Gigapixel WSI 理解的视觉语言助手——CONCH 块级编码器 + LongNet 切片编码器 + LLM,在 22 个任务中 18 个达 SOTA(CVPR 2025)。
  • SlideBench:综合性 WSI 多模态评测基准,涵盖 TCGA(10 → 31 种癌症)、BCNB、CPTAC、HISTAI 子集的描述与问答评测,全部经病理专家审核。
  • 全面开源:SlideChat 模型权重、SlideInstruction 数据集与 SlideBench 评测框架全部公开,推动计算病理学研究生态建设。

作者团队

Ying Chen*、Guoan Wang*、Yuanfeng Ji*†、Yanjun Li、Jin Ye、Tianbin Li、Ming Hu、Rongshan Yu、Yu Qiao、Junjun He†
* 同等贡献  ·  † 通讯作者
上海人工智能实验室 · 厦门大学 · 华东师范大学 · 斯坦福大学 · 莫纳什大学

GitHub 仓库 arXiv 论文 🤗 模型 🤗 数据集 ← 返回项目列表
</div>
GMAI Lab (General Medical AI)
Shanghai Artificial Intelligence Laboratory, China
团队 论文 重点研究 动态 联系
GitHub Hugging Face Google Scholar LinkedIn 小红书 知乎
© 2026 GMAI Lab (General Medical AI). Built with Jekyll & GitHub Pages. 最后更新于 April 2026

BibTeX Citation