研究方向
重点研究
医学数据基础设施
Imaging-X 项目:开放医学影像数据生态系统
整合 1000+ 开放医学影像数据集的综合调研与开源平台。我们提出元数据驱动融合范式(MDFP), 将碎片化小数据集整合为大规模、连贯的数据资源,并构建交互式发现门户实现端到端自动化数据集整合。 已获斯坦福大学等顶级机构的合作意向。
医学多模态 AI
GMAI-VL:通用医学多模态视觉语言模型
世界领先的医学多模态视觉语言模型研究。GMAI-VL 在 GMAI-VL-5.5M(涵盖 18 个临床专科的 550 万图像-文本对)上训练,GMAI-VL-R1 引入强化学习在 8 种影像模态上实现约 30% 的平均准确率提升。
临床 AI 系统
SlideChat:全切片病理图像视觉语言助手
首个能够理解千亿像素全切片病理图像的视觉语言助手。在 SlideInstruction(4200 张 WSI 标注、 17.6 万 VQA 问答对)上训练,在 SlideBench 评测中 22 项任务中 18 项达到最优, SlideBench-VQA(TCGA)准确率 81.17%。发表于 CVPR 2025。
医学图像分割
STU-Net:可扩展可迁移医学图像分割模型
参数量从 1400 万到 14 亿的可扩展 U-Net 系列,在 TotalSegmentator 上预训练,用于通用医学图像分割。 STU-Net-H 是迄今最大的医学分割模型,达到 90.06% 平均 DSC。荣获 MICCAI 2023 ATLAS 和 SPPIN 挑战赛冠军,AutoPET II 亚军。
医学图像分割
SAM-Med3D:三维医学图像通用分割
将 Segment Anything 模型适配至三维医学影像,采用全原生 3D 架构。在 SA-Med3D-140K (22K 体积数据、143K 掩码,涵盖 247 个类别)上训练,SAM-Med3D 仅需单个 3D 点提示即可 实现相比 SAM 60% 的 Dice 提升。配套数据集 SA-Med2D-20M(460 万张图像、1970 万个掩码) 是迄今最大的 2D 医学分割数据集。发表于 ECCV 2024 Workshop(Oral)及 IEEE TNNLS 2025。
医学图像分割
MedSegAgent:通用可扩展多智能体医学图像分割系统
一种通过自然语言指令调度专用数据集分割模型的多智能体系统。不同于训练单一通用模型, MedSegAgent 解析自由文本请求,执行从粗到精的数据集匹配,并对最佳匹配模型的结果进行集成。 支持 23 个数据集和 343 个分割目标,覆盖 CT、MRI、PET/CT 和超声等模态。发表于 IEEE JBHI 2026。
手术 AI 与机器人
OphCLIP:眼科手术分层检索增强视觉-语言预训练
面向眼科手术工作流理解的分层检索增强视觉-语言预训练框架。在 OphVL(37.5万视频-文本对、 7500小时视频,规模为现有手术VLP数据集15倍)上训练,OphCLIP在11个基准上取得了阶段识别 和多器械识别的最优零样本性能。发表于 ICCV 2025。
医学多模态 AI
UniMedVL:统一医学多模态理解与生成
首个在单一架构中统一图像理解与生成的医学多模态模型。基于UniMed-5M(560万+样本)和渐进式课程学习策略,UniMedVL在5个医学理解基准上达到领先水平,同时在生成质量上匹配专用模型。
医学多模态 AI
MedITok:统一医学图像标记器
首个面向医学图像的统一视觉标记器,同时保留细粒度解剖结构和丰富的临床语义。在跨9种模态的3300万+医学图像上预训练,MedITok在涵盖重建、分类、生成和视觉问答的30+基准上达到最优水平。
医学 AI 评估
MedQ-Deg:医学图像质量退化下的多模态大模型评测基准
针对临床真实图像质量退化场景的医学多模态大语言模型综合评测基准。MedQ-Deg 涵盖 18 种退化类型、 30 个细粒度能力维度和 7 种成像模态,共 24,894 个问答对。对 40 个主流多模态大模型的评测揭示了 AI 邓宁-克鲁格效应——模型在严重精度下降时仍保持不当的高置信度。
手术 AI
Ophora:文本引导的眼科手术视频生成模型
首个根据自然语言指令生成逼真眼科手术视频的模型。Ophora 基于 Ophora-160K(从叙事手术视频 中整理的超 16 万视频-指令对大规模数据集),采用渐进式视频-指令微调策略,从预训练的文本到视频 模型中迁移时空知识,同时保护患者隐私。
科学 AI
科学大语言模型综述:从数据基础到智能体前沿
以数据为中心的综合综述,将科学大语言模型(Sci-LLM)的发展重新定义为模型与数据基底的协同演化。 涵盖 270+ 预训练/后训练数据集和 190+ 基准测试,提出统一的科学数据分类法,追踪面向过程的 评估范式转变,并描绘闭环自主科学智能体的前景。