GMAI GMAI Shanghai Artificial Intelligence Laboratory, China
  • 团队
  • 论文
  • 重点研究
  • 动态
  • 联系
EN 中文
← 项目 </div>
医学基准与评估

MedQ-Bench:评估与探索多模态大语言模型的医学图像质量评估能力

首个建立感知–推理范式的综合性基准,利用多模态大语言模型对医学图像质量进行语言化评估

复旦大学与上海人工智能实验室联合帝国理工学院和剑桥大学共同研发。
GitHub
MedQ-Bench 概览:通过感知和推理任务评估 MLLMs 在 5 种模态下的医学图像质量评估能力
图 1. MedQ-Bench 概览,评估 MLLMs 在医学图像质量评估中的能力:(1) 全面覆盖:横跨 5 种模态的 3,308 个样本,涵盖 40+ 种退化类型。(2) 多维度评估:感知–推理范式。

医学图像质量评估(IQA)是临床 AI 的第一道安全关卡,然而现有方法仍受限于基于标量评分的度量体系,无法反映专家评估中核心的描述性、类人推理过程。为弥补这一不足,本工作提出了 MedQ-Bench,一个综合性基准,建立了利用多模态大语言模型(MLLMs)对医学图像质量进行语言化评估的感知–推理范式。

MedQ-Bench 定义了两个互补任务:MedQ-Perception 通过人工策划的基础视觉属性问题考查低层级感知能力;MedQ-Reasoning 包含无参考推理和对比推理任务,使模型评估与人类对图像质量的类人推理过程保持一致。该基准涵盖 5 种成像模态(MRI、CT、内窥镜、组织病理学、眼底摄影)及超过 40 种质量属性,共计 2,600 个感知查询和 708 个推理评估。

对 14 个前沿 MLLMs 的严格评估——包括开源模型、医学专用模型和商业系统——表明,模型展现出初步但不稳定的感知与推理能力,准确率尚不足以满足可靠的临床应用需求。表现最佳的 AI 模型(GPT-5)在感知任务上得分 68.97%,显著低于人类专家的 82.50%,凸显了针对医学 IQA 对 MLLMs 进行定向优化的迫切需要。

核心亮点

01 — 感知–推理评估范式

MedQ-Bench 开创了一套系统性评估方法论,映射临床医师的认知工作流程:先感知质量相关属性,再推理其临床影响。MedQ-Perception 使用单图提示评估直接视觉感知,包含三种题型——是非题、What 题(退化识别)和 How 题(严重程度评估)——沿两个轴组织:退化严重程度等级以及通用与模态特定问题。MedQ-Reasoning 包含无参考推理任务(要求模型生成全面的质量分析)和对比推理任务(在粗粒度和细粒度难度级别上评估图像对之间的细致区分能力)。

02 — 多维评判协议与人机对齐验证

为评估推理能力,本工作设计了多维评判协议,沿 四个互补维度 对模型输出进行评分:完整性(关键视觉信息的覆盖度)、精确性(与参考一致且无矛盾)、一致性(推理与结论之间的内在逻辑连贯性)和质量准确性(质量对比判断的正确性)。通过 200 个案例 由三位经认证的医学影像专家进行人机对齐验证,结果表明强一致性:完整性准确率 83.3%,精确性 87.0%,一致性 90.5%,加权二次 Cohen's kappa 值为 0.774–0.985。

03 — 全面实证分析揭示关键差距

对 14 个 MLLMs 的评估揭示了清晰的性能层级:闭源前沿模型领先(GPT-5 感知得分 68.97%),其次是开源模型(Qwen2.5-VL-72B 得分 63.14%),而医学专用模型的表现出乎意料地低于预期(MedGemma-27B 得分 57.16%)。轻度退化是最具挑战性的检测场景,平均准确率降至 56%,而无退化情形为 72%。即使是最先进的 MLLMs 在推理任务的完整性和精确性上也未能取得优秀评分,最高分仅为完整性 1.195/2.0 和精确性 1.118/2.0。最佳 AI 模型与人类专家之间 13.53% 的显著差距表明定向改进的迫切性。

结论

MedQ-Bench 建立了一个临床扎根且可解释的标准,用于衡量和推进医学图像质量评估。通过从高层诊断推理转向基础性的质量感知与推理能力,该基准揭示了当前 MLLMs——包括通用和医学专用系统——在这一关键临床任务上仅具备初步且不稳定的能力。该基准有望推动具有更强低层视觉理解和可信推理能力的 MLLMs 的发展,为自动化质量控制安全可靠地融入临床影像工作流铺平道路。

核心贡献

  • 提出 MedQ-Bench,首个通过感知–推理范式系统评估 MLLMs 医学 IQA 能力的综合性基准,涵盖 5 种模态和 40+ 种质量属性,共 3,308 个样本。
  • 设计了 多维评判协议,沿四个互补维度(完整性、精确性、一致性、质量准确性)对模型输出进行评分,并通过严格的人机对齐验证,准确率达 83.3–90.5%。
  • 构建了 临床代表性多源数据集,融合真实临床图像、基于物理重建的模拟退化图像和 AI 生成图像,实现了涵盖真实与可控场景的稳健评估。
  • 对 14 个前沿 MLLMs 进行了全面实证分析,揭示了与人类专家 13.53% 的性能差距,并发现医学专用模型意外地不及通用模型,对当前领域适配策略提出了质疑。

作者

Jiyao Liu*, Jinjie Wei*, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu

GitHub 仓库 ← 返回项目列表
</div>
GMAI Lab (General Medical AI)
Shanghai Artificial Intelligence Laboratory, China
团队 论文 重点研究 动态 联系
GitHub Hugging Face Google Scholar LinkedIn 小红书 知乎
© 2026 GMAI Lab (General Medical AI). Built with Jekyll & GitHub Pages. 最后更新于 April 2026

BibTeX Citation