揭示 AI Dunning-Kruger 效应 — 医学 MLLMs 在图像退化导致准确率严重下降时仍保持不当的高置信度
多模态大语言模型 (MLLMs) 在医学视觉-语言基准测试中展现了出色的性能,在某些情况下已接近甚至超越人类专家。然而,这些令人印象深刻的成果在很大程度上依赖于精心筛选的高质量医学图像。在真实临床环境中,医学图像常因噪声、运动伪影或硬件限制而发生退化 — 这引出了一个关键问题:MLLMs 在这些不完美条件下是否依然可靠?
MedQ-Deg 通过构建全面的基准来弥合这一空白,提供跨越 18 种不同退化类型、30 个细粒度能力维度和 7 种成像模态的多维评估,共包含 24,894 个问答对。每种退化在放射科专家校准下设置了 3 个严重程度。该基准还引入了 Calibration Shift 指标,用于量化模型感知置信度与实际性能之间的差距,以评估模型在退化条件下的元认知可靠性。
本研究提供了大规模的实证证据,揭示了 AI Dunning-Kruger 效应:医学 MLLMs 即使在真实能力显著下降时仍表现出明显的过度自信。模型不仅在图像退化下遭受准确率下降,还表现出无法识别自身能力边界的显著缺陷 — 在给出错误预测的同时维持不当的高置信度。这种过度自信随退化严重程度的增加而系统性加剧 — 全部 40 个评估模型从 L0 到 L2 均呈现出持续为正且不断增大的 Calibration Shift。这一元认知失败表明,当前模型缺乏安全临床部署所需的自我感知能力。
MedQ-Deg 采用三层能力层级体系,以临床医师的认知工作流程为基础。任务来源于三个顶级医学基准 — GMAI-MMBench、OmniMedVQA 和 MedXpertQA — 冗余条目经过合并,任务结构重新组织。该层级涵盖两个高层能力(医学感知与临床推理)、六个中层临床任务(解剖结构识别、影像感知、临床理解、基础科学推理、诊断推理和治疗推理)以及 30 项细粒度技能。退化类型被组织为五个基于物理机制的类别(伪影、强度抖动、分辨率与模糊、运动干扰和噪声),包含通用退化和模态特异性退化。
对 40 个主流 MLLMs — 涵盖 9 个商用模型、21 个开源通用模型和 10 个医学专用模型 — 的全面评估揭示了若干关键发现。大多数模型存在严重的鲁棒性缺陷,表现为非线性的"悬崖效应":感知能力在达到阈值前保持相对稳定,但一旦超过阈值,视觉-语言整合便发生灾难性崩溃。即使是表现最佳的模型(InternVL3-Instruct 78B),在 L2 严重程度下也经历了显著的准确率下降。在所有模型组中,临床理解是最强的能力维度,而推理维度(基础科学、诊断、治疗)则严重薄弱,其中治疗规划最为灾难性 — 多个开源模型的准确率骤降至接近零。
MedQ-Deg 建立了迄今为止对医学 MLLMs 在图像质量变化下行为表现最全面的刻画。通过揭示 AI Dunning-Kruger 效应,并提供跨能力维度、退化类别和成像模态的多维分析,MedQ-Deg 推动了医学 MLLMs 向真实临床实践中鲁棒且可信赖的方向发展。该基准证明,当前模型在退化条件下普遍无法校准其置信度,这对临床部署构成严重风险 — 过度自信的错误推断可能妨碍必要的人工审核。
Jiyao Liu*, Junzhi Ning*, Chenglong Ma*, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He†, Ningsheng Xu†