论文 — GMAI Lab (General Medical AI)

arXiv · 2025

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu

我们提出MedQ-Deg，一个用于评估医学多模态大语言模型（MLLM）在临床真实图像质量退化条件下表现的综合性基准。MedQ-Deg涵盖18种退化类型、30个细粒度能力维度和7种影像模态，共24,894个问答对。我们引入校准偏移（Calibration Shift）指标来量化模型置信度与实际性能之间的差距，揭示了"AI邓宁-克鲁格效应"——模型在准确率严重下降的情况下仍维持不恰当的高置信度。对40个主流MLLM的评估表明，模型性能随退化程度的增加而系统性下降。

Paper

arXiv · 2025

UniMedVL: Unifying Medical Multimodal Understanding and Generation through Observation-Knowledge-Analysis

Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He

我们提出UniMedVL，这是首个在单一架构内统一图像理解与生成能力的医学多模态模型，无需手动切换模型检查点。基于"观察-知识-分析"（OKA）框架，我们构建了包含560万余条多模态医学样本的 UniMed-5M数据集，并设计了渐进式课程学习策略以系统性地构建模型能力。UniMedVL在5个医学图像理解基准上取得了优异表现，同时在8种影像模态的生成质量上与专用模型持平，证明了双向知识共享能够同时提升理解和生成性能。

arXiv · 2026

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

Zhongying Deng, et al.

整合1000+开放医学影像数据集的综合调研与开源平台。我们提出元数据驱动融合范式（MDFP），将碎片化小数据集整合为大规模、连贯的数据资源，并构建交互式发现门户实现端到端自动化数据集整合。

Paper Code Dataset HuggingFace

CVPR · 2025

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

Ying Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye, Tianbin Li, Ming Hu, Rongshan Yu, Yu Qiao, Junjun He

我们提出SlideChat，这是首个能够理解吉像素全切片图像（WSI）的视觉语言助手。我们构建了SlideInstruction——一个包含4,181对切片-报告对及175,753个问答对的数据集，涵盖13个病理类别，规模比现有数据集大20倍。SlideChat在SlideBench-VQA（TCGA）上达到81.17%的准确率，并在22项任务中的18项上超越了最先进的结果，为下一代医学视觉语言模型建立了数据-模型-基准框架。

Paper Code Dataset

MICCAI · 2025 · Oral

Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model

Wei Li, Ming Hu, Guoan Wang, Lihao Liu, Kaijing Zhou, Junzhi Ning, Xin Guo, Zongyuan Ge, Lixu Gu, Junjun He

我们提出Ophora，一种基于文本引导的手术视频生成模型，该模型在Ophora-160K （16万个视频-文本对）上进行训练。通过利用基于LVLM的帧过滤的隐私保护微调流程，生成了Ophora-28K子集。Ophora在FID、FVD和CLIPScore等指标上均优于现有方法，且合成视频显著提升了下游手术工作流理解性能（例如，MViTv2 Top-1准确率从 37.92%提升至42.24%）。

Paper Code HuggingFace

MICCAI · 2025

RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions

Junzhi Ning, Cheng Tang, Kaijing Zhou, Diping Song, Lihao Liu, Ming Hu, Wei Li, Huihui Xu, Yanzhou Su, Tianbin Li, Jiyao Liu, Jin Ye, Sheng Zhang, Yuanfeng Ji, Junjun He

RetinaLogos针对标注视网膜图像长期短缺的问题，通过以自由形式自然语言为条件生成高分辨率眼底照片来解决这一挑战。我们构建了RetinaLogos-1400k（包含1400万张图像-文本对），并训练了一个在1024×1024分辨率下运行的三阶段渐进式生成流程。专家盲评结果显示，62.07%的合成图像被判断为真实图像。糖尿病视网膜病变（DR）分级准确率提升5–10%，青光眼检测F1值达到0.93。

Paper Code

MICCAI · 2025

Towards Interpretable Counterfactual Generation via Multimodal Autoregression

Chenglong Ma, Yuanfeng Ji, Jin Ye, Lu Zhang, Ying Chen, Tianbin Li, Mingjie Li, Junjun He, Hongming Shan

我们提出面向医学影像的可解释反事实生成（ICG）任务，要求模型在给定疾病进展假设的条件下，联合预测未来图像与文本放射学解释。我们构建了ICG-CXR（包含 11,439个高质量样本），并提出了一种多模态自回归模型ProgEmu，该模型实现了 FID 29.21和ROUGE-L 0.2606，超越了所有现有最先进方法。

Paper Code

MICCAI · 2025

Multi-modal MRI Translation via Evidential Regression and Distribution Calibration

Jiyao Liu, Shangqi Gao, Yuxin Li, Lihao Liu, Xin Gao, Zhaohu Xing, Junzhi Ning, Yanzhou Su, Xiao-Yong Zhang, Junjun He, Ningsheng Xu, Xiahai Zhuang

我们提出一种新颖的磁共振成像跨模态转换框架，将证据回归（Evidential Regression）与分布校准（Distribution Calibration）相结合，以解决临床场景中缺失模态序列的问题。每种源模态预测一个Normal-Inverse Gamma分布，并通过MoNIG进行融合，实现不确定性感知的图像合成。在BraTS2023及低磁场非洲磁共振成像数据集上的验证结果表明，该框架在跨中心泛化任务中达到PSNR 28.48 dB、UCE 0.089的性能水平。

Paper

CVPR · 2025

Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Yanzhou Su, Junjun He

我们提出IMIS-Bench，一个全面的交互式医学图像分割基准测试，包含超过3.61亿个掩码，涵盖多种影像模态。我们提出了面向医学领域交互式分割的基线方法和评估协议，为临床应用中可提示分割方法的比较建立了标准框架。

Paper

arXiv · 2025

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

Yanzhou Su, Tianbin Li, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

GMAI-VL-R1将强化学习引入医学视觉语言模型，在8种影像模态上实现约30%的平均准确率提升。该模型证明基于强化学习的推理能力可以超越参数量大36倍的模型，为高效医学AI建立了新范式。

Paper Code

arXiv · 2025

MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs

Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu

MedQ-Bench提出了一种用于医学图像质量评估的新型感知-推理范式，涵盖5种模态及40余种质量属性，共包含3,308个样本。该基准整合了真实临床图像、物理退化模拟以及人工智能合成数据，设置三条评估赛道。对14个主流多模态大语言模型的零样本评估结果显示，GPT-4的感知准确率为68.97%，仍低于专家水平13.5个百分点。

Paper Code Dataset

arXiv · 2025

MedITok: A Unified Tokenizer for Medical Image Synthesis and Interpretation

Chenglong Ma, Yuanfeng Ji, Jin Ye, Zilong Li, Chenhui Wang, Junzhi Ning, Wei Li, Lihao Liu, Qiushan Guo, Tianbin Li, Junjun He, Hongming Shan

MedITok是首个面向医学图像设计的统一视觉标记器，旨在解决联合合成与理解任务中结构保真度与语义丰富性之间的矛盾。其采用两阶段训练框架：第一阶段在30M+ 无标注图像上进行预训练以实现视觉对齐，第二阶段在200万图文对上进行微调以实现语义对齐。MedITok在涵盖9种成像模态、30余个数据集的重建、分类、生成及视觉问答任务中均达到当前最优水平。

Paper Code HuggingFace

ICCV · 2025

OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining

Ming Hu, Kun Yuan, Yaling Shen, Feilong Tang, Xiaohao Xu, Lin Zhou, Wei Li, Ying Chen, Zhongxing Xu, Zelin Peng, Siyuan Yan, Vinkle Srivastav, Diping Song, Tianbin Li, Danli Shi, Jin Ye, Nicolas Padoy, Nassir Navab, Junjun He, Zongyuan Ge

OphCLIP是一种层次化检索增强的视觉-语言预训练框架，专为眼科手术工作流程理解而设计。该框架基于OphVL构建——OphVL是一个大规模数据集，包含375,000余个层次化结构的视频-文本对，涵盖手术阶段、手术器械及临床结局等信息——OphCLIP 可同时学习细粒度与长时序的视觉表征。在11个数据集上针对手术阶段识别与多器械检测任务的评估结果表明，该框架具备强健的泛化能力与优越的综合性能。

Paper Code HuggingFace

IEEE JBHI · 2026

MedSegAgent: A Universal and Scalable Multi-Agent System for Instructive Medical Image Segmentation

Ziyan Huang, Haoyu Wang, Jin Ye, Yuanfeng Ji, Xiaowei Hu, Lihao Liu, Zhikai Yang, Wei Li, Ming Hu, Yanzhou Su, Tianbin Li, Yun Gu, Shaoting Zhang, Yu Qiao, Lixu Gu, Junjun He

MedSegAgent是一个用于指令驱动医学图像分割的多智能体系统。该系统并非训练单一的通用分割模型，而是通过自然语言理解、由粗到细的数据集匹配以及执行时结果整合，协调调度多个专门化的数据集特定模型。该系统整合了23个数据集，支持跨CT、MRI、PET/CT及超声相关场景的343个分割目标。

Paper Code

arXiv · 2024

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

GMAI-VL是一个通用医学视觉语言模型，基于GMAI-VL-5.5M进行训练——该数据集汇聚了数百个专科医学子数据集，统一构建为550万高质量图文对，涵盖18个临床专科和10余种影像模态。模型采用三阶段训练策略，逐步强化视觉与语言的对齐与融合能力。GMAI-VL在多个医学多模态视觉问答与诊断推理基准测试上达到或超越了当前最优水平。

Paper Code HuggingFace

NeurIPS · 2024

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao

GMAI-MMBench是目前最全面的通用医学人工智能评测平台，覆盖284个数据集、 38种影像模态、18项临床任务、18个临床科室以及4级感知粒度，并配备层次化任务分类体系。对50个大型视觉语言模型的评测结果表明，即便是表现最优的模型（如GPT-4o）准确率也仅达53.96%，这一结果量化了医学多模态理解的挑战难度，并揭示了当前前沿模型存在的五类常见失效模式。

Paper Code Dataset

MICCAI · 2024

SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation

Guoan Wang, Jin Ye, Junlong Cheng, Tianbin Li, Zhaolin Chen, Jianfei Cai, Junjun He, Bohan Zhuang

SAM-Med3D-MoE通过混合专家架构扩展SAM-Med3D，以解决任务特定微调过程中的灾难性遗忘问题。通过将不同的医学影像任务路由至专门的专家模块，该模型在保持通用分割能力的同时，在多个3D医学影像基准上实现了强大的任务特定性能。

Paper

CVPR · 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao, Ping Luo

OmniMedVQA是一个大规模医学多模态视觉问答基准测试，整合了来自真实临床场景的73个数据集，涵盖12种影像模态和20余个解剖区域。大规模实验揭示了两项关键发现：当前大型视觉语言模型在医学视觉问答任务上普遍表现欠佳，且令人意外的是，许多医学专用模型的性能反而落后于通用模型——由此暴露出现有模型在跨模态对齐、知识泛化与鲁棒性方面存在的系统性缺陷。

Paper Code

IEEE TNNLS · 2025 · ECCV 2024 Workshop Oral

SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images

Haoyu Wang, Sizheng Guo, Jin Ye, Zhongying Deng, Junlong Cheng, Tianbin Li, Jianpin Chen, Yanzhou Su, Ziyan Huang, Yiqing Shen, Bin Fu, Shaoting Zhang, Junjun He, Yu Qiao

SAM-Med3D将Segment Anything Model（SAM）适配至三维体积医学图像领域。我们构建了一个包含21K个医学体积数据和131K个三维掩码的大规模三维数据集，涵盖 247个类别，并在此基础上训练SAM-Med3D以在体素级别建模三维上下文信息。 SAM-Med3D相较于基于二维切片的方法，在分割精度与鲁棒性方面取得了显著提升，为临床应用与科学研究提供了一个支持通用提示的分割骨干网络。

Paper Code HuggingFace

arXiv · 2023

SAM-Med2D

Junlong Cheng, Jin Ye, Zhongying Deng, Jianpin Chen, Tianbin Li, Haoyu Wang, Yanzhou Su, Ziyan Huang, Jilong Chen, Lei Jiang, Hui Sun, Junjun He, Shaoting Zhang, Min Zhu, Yu Qiao

SAM-Med2D将Segment Anything Model（SAM）适配至二维医学图像分割任务。我们构建了大规模基准数据集SA-Med2D-20M，并在此基础上训练了一个可靠的基线模型，使其能够更好地适应医学图像的结构特征与分布偏移。SAM-Med2D在分割精度与稳定性方面均取得了显著提升，有效弥合了自然图像分割模型与临床医学图像分析之间的鸿沟。

Paper Code Dataset

arXiv · 2023

STU-Net: Scalable and Transferable Medical Image Segmentation Models Empowered by Large-Scale Supervised Pre-training

Ziyan Huang, Haoyu Wang, Zhongying Deng, Jin Ye, Yanzhou Su, Hui Sun, Junjun He, Yun Gu, Lixu Gu, Shaoting Zhang, Yu Qiao

STU-Net是一系列可扩展、可迁移的U-Net模型，经大规模标注医学图像分割数据集预训练而成。其参数规模从14M延伸至1.4B，其中STU-Net-H（参数量达1.4B）是迄今为止规模最大的医学图像分割模型。经过大规模有监督预训练后，各规模模型在直接推理与微调两种设置下均取得了优异性能，充分验证了其强大的可扩展性与迁移能力。

Paper Code HuggingFace

arXiv · 2025

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, et al., Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

本文是一项关于科学大语言模型（Sci-LLMs）的系统性综述，由全球20余家顶尖机构联合完成，覆盖1000余篇文献、600余个核心数据集及当前最优模型。综述系统梳理了Sci-LLMs的发展历程、数据基础、模型演进、评测框架与智能体前沿进展，并面向AI辅助科学发现生态系统提出了未来发展路线图。

Paper Code