MedQ-Deg

A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

40

MLLMs Evaluated

24,894

QA Pairs

19

Degradation Types

30

Fine-grained Skills

7

Modalities

Read Paper GitHub HuggingFace View Examples

Benchmark Framework

Two orthogonal hierarchies structure the evaluation: a capability hierarchy decomposing clinical competence into 30 fine-grained skills, and a degradation hierarchy covering 19 degradation types across 7 modalities.

MedQ-Deg Benchmark Framework

Fig. 2: Overview of the MedQ-Deg benchmark framework. Left: Medical MLLM Capability Hierarchy. Middle: Benchmark Construction pipeline. Right: Medical Image Degradation Hierarchy.

Key Contributions

Comprehensive Dataset

24,894 QA pairs across 18 degradation types, 7 medical imaging modalities, and 30 fine-grained clinical skills

Extensive Evaluation

40 MLLMs evaluated with Calibration Shift metric to assess model reliability and confidence calibration

AI Dunning-Kruger Effect

Discovery of the AI Dunning-Kruger Effect: models with lower performance often exhibit higher confidence

Degradation Categories

19 degradation types across 5 major categories, each calibrated at 3 severity degrees by expert radiologists.

Artifacts

7 types

Motion Interference

2 types

Intensity Jitter

3 types

Noise

2 types

Resolution & Blur

5 types

Ready to Explore?

Dive into our comprehensive medical image degradation benchmark.

View Results View Examples

Citation

@misc{liu2026medqdegmultidimensionalbenchmarkevaluating,
      title={MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations},
      author={Jiyao Liu and Junzhi Ning and Chenglong Ma and Wanying Qu and Jianghan Shen and Siqi Luo and Jinjie Wei and Jin Ye and Pengze Li and Tianbin Li and Jiashi Lin and Hongming Shan and Xinzhe Luo and Xiaohong Liu and Lihao Liu and Junjun He and Ningsheng Xu},
      year={2026},
      eprint={2603.07769},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2603.07769},
}

© 2026 MedQ-Deg. All rights reserved.