负责人（PI）

Junjun He

实验室负责人（PI）

Google Scholar 邮箱

何军军领导GMAI（通用医学AI）研究组。他在上海交通大学（SJTU）师从顾力栩教授获得博士学位，并在中国科学院深圳先进技术研究院（SIAT）多媒体实验室（MMLAB）与乔宇教授合作开展研究。研究兴趣涵盖密集预测（医学图像分割、目标检测、实例分割）、高效深度学习（模型压缩、神经架构搜索、量化），以及通用医学AI——包括多模态大型语言模型、分割基础模型、临床AI系统和生物医学数据基础设施。

关于我

何军军，上海人工智能实验室青年科学家、上海创智学院全时导师、复旦大学兼职博导。目前主要研究方向为多模态理解、多模态生成、多模态生成理解一体化，以及多智能体及其在医学领域的应用。谷歌学术引用 1.1 万余次，H 指数 46，入选斯坦福大学全球前 2% 顶尖科学家榜单，荣获 2025 MICCAI Best Paper and Young Scientist Awards Shortlist 和 MICCAI 2025 Best Workshop Paper Award。在国际挑战赛中获得 10 余项奖项，其中 6 项冠军。担任上海人工智能实验室通用医疗 GMAI 团队负责人，带领团队在医疗 AI 领域构建并开源了多个大规模基准数据集和高性能模型。代表性成果包括：3D 医学影像预训练模型 STU-Net，医学影像分割基础模型 SAM-Med2D 和 SAM-Med3D，大规模系统化医学多模态评测基准 OmniMedVQA 与 GMAI-MMBench，通用医疗多模态大模型 GMAI-VL，超大分辨率病理 WSI 多模态大模型 SlideChat，以及大规模眼底彩照生成模型 RetinaLogos 和眼科手术视频生成模型 Ophora 等。近期，团队开源项目 Project Imaging-X（大规模医学影像数据综述与开源开放共享平台）在国内外引起广泛关注。此外，还参与了通用多模态大模型 InternVL、科学多模态大模型 Intern-S1，以及生成理解一体化模型 Lumina-DiMOO 等重要项目的研发工作。

研究方向

医学多模态大模型：GMAI-VL 系列、UniMedVL、SlideChat
医学图像分割基础模型：SAM-Med2D、SAM-Med3D、STU-Net（14M–1.4B 参数）
临床 AI 系统：MedSegAgent 多智能体分割、手术视频理解（OphCLIP、Ophora）
医学数据基础设施：Project Imaging-X（整合 1000+ 开放医学影像数据集）
高效深度学习：模型压缩、神经架构搜索、量化

代表性成果

GMAI 研究组在通用医学 AI 领域取得了系统性突破：

医学多模态大模型 — GMAI-VL 在 550 万图文对上训练，覆盖 18 个临床专科和 38 种影像模态，是国际领先的医学视觉语言模型。SlideChat 是全球首个能直接理解千亿像素全切片病理图像的视觉语言助手（CVPR 2025）。GMAI-VL-R1 通过强化学习在 8 种影像模态上实现约 30% 的平均准确率提升，超越 36 倍参数量的模型。

医学分割基础模型 — SAM-Med3D 将 SAM 架构拓展至三维医学影像，成为该领域最广泛使用的开源模型之一。STU-Net 系列（14M–1.4B 参数）是迄今最大的医学图像分割模型，在 TotalSegmentator 上达到 90.06% 平均 DSC，荣获 MICCAI 2023 ATLAS 和 SPPIN 挑战赛双料冠军。

临床 AI 系统 — OphCLIP（ICCV 2025）构建了 37.5 万视频-文本对的眼科手术数据集，在 11 个基准上取得零样本最优性能。MedSegAgent 通过多智能体协作实现覆盖 23 个数据集、343 个分割目标的通用医学图像分割（IEEE JBHI 2026）。

学术成果概览

在 CVPR、ICCV、ECCV、NeurIPS、MICCAI、AAAI 等顶级会议发表多篇论文
多个开源项目累计获得 数千 GitHub Stars
团队成果被 斯坦福大学 等顶级机构关注并寻求合作
指导团队在 MICCAI 2023 多项挑战赛中获得冠军

早期代表性工作

APCNet：自适应金字塔上下文网络用于语义分割（CVPR 2019）
Dynamic Multi-scale Filters：动态多尺度滤波器用于语义分割（ICCV 2019）
EfficientFCN：整体引导解码用于语义分割（ECCV 2020，4 篇 ECCV 同年发表）
ODIR-2019 竞赛：眼部疾病智能识别国际竞赛第一名（1/1500+）

学术服务

CVPR、MICCAI、ICME 等国际会议审稿人