重点研究 — GMAI Lab (General Medical AI)

医学数据基础设施

Imaging-X 项目：开放医学影像数据生态系统

整合 1000+ 开放医学影像数据集的综合调研与开源平台。我们提出元数据驱动融合范式（MDFP），将碎片化小数据集整合为大规模、连贯的数据资源，并构建交互式发现门户实现端到端自动化数据集整合。已获斯坦福大学等顶级机构的合作意向。

项目详情 → GitHub 论文 🤗 HuggingFace 🤗 数据集

Project Imaging-X: Open Medical Imaging Data Ecosystem

医学多模态 AI

GMAI-VL：通用医学多模态视觉语言模型

世界领先的医学多模态视觉语言模型研究。GMAI-VL 在 GMAI-VL-5.5M（涵盖 18 个临床专科的 550 万图像-文本对）上训练，GMAI-VL-R1 引入强化学习在 8 种影像模态上实现约 30% 的平均准确率提升。

项目详情 → GitHub 论文 🤗 HuggingFace

GMAI-VL: General Medical Multimodal Vision-Language Model

临床 AI 系统

SlideChat：全切片病理图像视觉语言助手

首个能够理解千亿像素全切片病理图像的视觉语言助手。在 SlideInstruction（4200 张 WSI 标注、 17.6 万 VQA 问答对）上训练，在 SlideBench 评测中 22 项任务中 18 项达到最优， SlideBench-VQA（TCGA）准确率 81.17%。发表于 CVPR 2025。

项目详情 → GitHub 论文 🤗 HuggingFace 🤗 数据集主页

SlideChat: Vision-Language Assistant for Whole-Slide Pathology

医学图像分割

STU-Net：可扩展可迁移医学图像分割模型

参数量从 1400 万到 14 亿的可扩展 U-Net 系列，在 TotalSegmentator 上预训练，用于通用医学图像分割。 STU-Net-H 是迄今最大的医学分割模型，达到 90.06% 平均 DSC。荣获 MICCAI 2023 ATLAS 和 SPPIN 挑战赛冠军，AutoPET II 亚军。

项目详情 → GitHub 论文

STU-Net: Scalable and Transferable Medical Image Segmentation Models

医学图像分割

SAM-Med3D：三维医学图像通用分割

将 Segment Anything 模型适配至三维医学影像，采用全原生 3D 架构。在 SA-Med3D-140K （22K 体积数据、143K 掩码，涵盖 247 个类别）上训练，SAM-Med3D 仅需单个 3D 点提示即可实现相比 SAM 60% 的 Dice 提升。配套数据集 SA-Med2D-20M（460 万张图像、1970 万个掩码）是迄今最大的 2D 医学分割数据集。发表于 ECCV 2024 Workshop（Oral）及 IEEE TNNLS 2025。

项目详情 → GitHub 论文

SAM-Med3D: Segment Anything in 3D Medical Images

医学图像分割

MedSegAgent：通用可扩展多智能体医学图像分割系统

一种通过自然语言指令调度专用数据集分割模型的多智能体系统。不同于训练单一通用模型， MedSegAgent 解析自由文本请求，执行从粗到精的数据集匹配，并对最佳匹配模型的结果进行集成。支持 23 个数据集和 343 个分割目标，覆盖 CT、MRI、PET/CT 和超声等模态。发表于 IEEE JBHI 2026。

项目详情 → GitHub 论文

MedSegAgent: Universal Multi-Agent System for Medical Image Segmentation

手术 AI 与机器人

OphCLIP：眼科手术分层检索增强视觉-语言预训练

面向眼科手术工作流理解的分层检索增强视觉-语言预训练框架。在 OphVL（37.5万视频-文本对、 7500小时视频，规模为现有手术VLP数据集15倍）上训练，OphCLIP在11个基准上取得了阶段识别和多器械识别的最优零样本性能。发表于 ICCV 2025。

项目详情 → GitHub 论文

OphCLIP: Hierarchical Retrieval-Augmented Ophthalmic Surgical VLP

医学多模态 AI · ICML 2026

UniMedVL：统一医学多模态理解与生成

首个在单一架构中统一图像理解与生成的医学多模态模型（ICML 2026）。基于UniMed-5M（560万+样本）和渐进式课程学习策略，UniMedVL在5个医学理解基准上达到领先水平，同时在生成质量上匹配专用模型。

项目详情 → GitHub 论文 🤗 数据集主页

UniMedVL: Unified Medical Multimodal Understanding and Generation

医学多模态 AI

MedITok：统一医学图像标记器

首个面向医学图像的统一视觉标记器，同时保留细粒度解剖结构和丰富的临床语义。在跨9种模态的3300万+医学图像上预训练，MedITok在涵盖重建、分类、生成和视觉问答的30+基准上达到最优水平。

项目详情 → GitHub 论文 🤗 HuggingFace

MedITok: Unified Medical Image Tokenizer

医学 AI 评估

MedQ-Deg：医学图像质量退化下的多模态大模型评测基准

针对临床真实图像质量退化场景的医学多模态大语言模型综合评测基准。MedQ-Deg 涵盖 18 种退化类型、 30 个细粒度能力维度和 7 种成像模态，共 24,894 个问答对。对 40 个主流多模态大模型的评测揭示了 AI 邓宁-克鲁格效应——模型在严重精度下降时仍保持不当的高置信度。

项目详情 → GitHub 论文 🤗 数据集主页

MedQ-Deg: Evaluating MLLMs Across Medical Image Quality Degradations

手术 AI

Ophora：文本引导的眼科手术视频生成模型

首个根据自然语言指令生成逼真眼科手术视频的模型。Ophora 基于 Ophora-160K（从叙事手术视频中整理的超 16 万视频-指令对大规模数据集），采用渐进式视频-指令微调策略，从预训练的文本到视频模型中迁移时空知识，同时保护患者隐私。

项目详情 → GitHub 论文

Ophora: Text-Guided Ophthalmic Surgical Video Generation

科学 AI

科学大语言模型综述：从数据基础到智能体前沿

以数据为中心的综合综述，将科学大语言模型（Sci-LLM）的发展重新定义为模型与数据基底的协同演化。涵盖 270+ 预训练/后训练数据集和 190+ 基准测试，提出统一的科学数据分类法，追踪面向过程的评估范式转变，并描绘闭环自主科学智能体的前景。

项目详情 → GitHub

Survey of Scientific Large Language Models

医学 AI 评估

MedQ-Bench：多模态大模型医学图像质量评估基准

首个系统评估多模态大语言模型医学图像质量评估能力的综合基准。MedQ-Bench 建立感知-推理范式，涵盖 5 种成像模态和 40+ 质量属性，包含 2,600 个感知查询和 708 个推理评估。对 14 个先进多模态大模型的评测显示，模型具有初步但不稳定的感知和推理能力，尚不足以用于可靠的临床实践。

项目详情 → GitHub 论文 🤗 数据集

MedQ-Bench: Evaluating Medical Image Quality Assessment in MLLMs