GMAI GMAI Shanghai Artificial Intelligence Laboratory, China
  • 团队
  • 论文
  • 重点研究
  • 动态
  • 联系
EN 中文
← 项目 </div>
医学 AI 鲁棒性与基准测试

MedQ-Deg: 面向医学图像质量退化的多维度 MLLMs 评估基准

揭示 AI Dunning-Kruger 效应 — 医学 MLLMs 在图像退化导致准确率严重下降时仍保持不当的高置信度

由上海人工智能实验室与复旦大学牵头,联合上海交通大学和帝国理工学院共同研发。
项目主页
MedQ-Deg 基准框架:包含 6 个任务 30 项细粒度技能的能力层级体系、覆盖 7 种模态 18 种退化类型的退化层级体系,以及三个严重程度的数据管线
图 1. MedQ-Deg 基准框架概览。评估由两个正交层级体系构成:能力层级将临床能力分解为 6 个任务下的 30 项细粒度技能;退化层级覆盖 7 种模态下的 18 种退化类型,每种退化在专家校准的三个严重程度(L0–L2)下实例化。

多模态大语言模型 (MLLMs) 在医学视觉-语言基准测试中展现了出色的性能,在某些情况下已接近甚至超越人类专家。然而,这些令人印象深刻的成果在很大程度上依赖于精心筛选的高质量医学图像。在真实临床环境中,医学图像常因噪声、运动伪影或硬件限制而发生退化 — 这引出了一个关键问题:MLLMs 在这些不完美条件下是否依然可靠?

MedQ-Deg 通过构建全面的基准来弥合这一空白,提供跨越 18 种不同退化类型、30 个细粒度能力维度和 7 种成像模态的多维评估,共包含 24,894 个问答对。每种退化在放射科专家校准下设置了 3 个严重程度。该基准还引入了 Calibration Shift 指标,用于量化模型感知置信度与实际性能之间的差距,以评估模型在退化条件下的元认知可靠性。

核心亮点

01 — AI Dunning-Kruger 效应

本研究提供了大规模的实证证据,揭示了 AI Dunning-Kruger 效应:医学 MLLMs 即使在真实能力显著下降时仍表现出明显的过度自信。模型不仅在图像退化下遭受准确率下降,还表现出无法识别自身能力边界的显著缺陷 — 在给出错误预测的同时维持不当的高置信度。这种过度自信随退化严重程度的增加而系统性加剧 — 全部 40 个评估模型从 L0 到 L2 均呈现出持续为正且不断增大的 Calibration Shift。这一元认知失败表明,当前模型缺乏安全临床部署所需的自我感知能力。

02 — 全面的层级评估框架

MedQ-Deg 采用三层能力层级体系,以临床医师的认知工作流程为基础。任务来源于三个顶级医学基准 — GMAI-MMBench、OmniMedVQA 和 MedXpertQA — 冗余条目经过合并,任务结构重新组织。该层级涵盖两个高层能力(医学感知与临床推理)、六个中层临床任务(解剖结构识别、影像感知、临床理解、基础科学推理、诊断推理和治疗推理)以及 30 项细粒度技能。退化类型被组织为五个基于物理机制的类别(伪影、强度抖动、分辨率与模糊、运动干扰和噪声),包含通用退化和模态特异性退化。

03 — 40 个 MLLMs 的关键发现

对 40 个主流 MLLMs — 涵盖 9 个商用模型、21 个开源通用模型和 10 个医学专用模型 — 的全面评估揭示了若干关键发现。大多数模型存在严重的鲁棒性缺陷,表现为非线性的"悬崖效应":感知能力在达到阈值前保持相对稳定,但一旦超过阈值,视觉-语言整合便发生灾难性崩溃。即使是表现最佳的模型(InternVL3-Instruct 78B),在 L2 严重程度下也经历了显著的准确率下降。在所有模型组中,临床理解是最强的能力维度,而推理维度(基础科学、诊断、治疗)则严重薄弱,其中治疗规划最为灾难性 — 多个开源模型的准确率骤降至接近零。

结论

MedQ-Deg 建立了迄今为止对医学 MLLMs 在图像质量变化下行为表现最全面的刻画。通过揭示 AI Dunning-Kruger 效应,并提供跨能力维度、退化类别和成像模态的多维分析,MedQ-Deg 推动了医学 MLLMs 向真实临床实践中鲁棒且可信赖的方向发展。该基准证明,当前模型在退化条件下普遍无法校准其置信度,这对临床部署构成严重风险 — 过度自信的错误推断可能妨碍必要的人工审核。

核心贡献

  • 构建了 MedQ-Deg — 一个系统性基准,提供三层层级评估框架,涵盖 18 种退化类型、30 个细粒度能力维度和 7 种成像模态下的 24,894 个问答对,严重程度由放射科专家校准。
  • 引入了 Calibration Shift 定量指标,为 AI Dunning-Kruger 效应提供了大规模实证证据:医学 MLLMs 即使在真实能力下降时仍保持显著的过度自信,且这种过度自信随退化严重程度的增加而系统性加剧。
  • 对 40 个主流 MLLMs(涵盖商用、开源通用和医学专用模型)进行了广泛评估,提供了迄今为止对医学 MLLMs 在图像质量变化下跨多个能力维度和退化类别行为表现最全面的刻画。

作者

Jiyao Liu*, Junzhi Ning*, Chenglong Ma*, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He†, Ningsheng Xu†

项目主页 ← 返回项目列表
</div>
GMAI Lab (General Medical AI)
Shanghai Artificial Intelligence Laboratory, China
团队 论文 重点研究 动态 联系
GitHub Hugging Face Google Scholar LinkedIn 小红书 知乎
© 2026 GMAI Lab (General Medical AI). Built with Jekyll & GitHub Pages. 最后更新于 April 2026

BibTeX Citation