关于我
何军军,上海人工智能实验室青年科学家、上海创智学院全时导师、复旦大学兼职博导。目前主要研究方向为多模态理解、多模态生成、多模态生成理解一体化,以及多智能体及其在医学领域的应用。谷歌学术引用 1.1 万余次,H 指数 46,入选斯坦福大学全球前 2% 顶尖科学家榜单,荣获 2025 MICCAI Best Paper and Young Scientist Awards Shortlist 和 MICCAI 2025 Best Workshop Paper Award。在国际挑战赛中获得 10 余项奖项,其中 6 项冠军。担任上海人工智能实验室通用医疗 GMAI 团队负责人,带领团队在医疗 AI 领域构建并开源了多个大规模基准数据集和高性能模型。代表性成果包括:3D 医学影像预训练模型 STU-Net,医学影像分割基础模型 SAM-Med2D 和 SAM-Med3D,大规模系统化医学多模态评测基准 OmniMedVQA 与 GMAI-MMBench,通用医疗多模态大模型 GMAI-VL,超大分辨率病理 WSI 多模态大模型 SlideChat,以及大规模眼底彩照生成模型 RetinaLogos 和眼科手术视频生成模型 Ophora 等。近期,团队开源项目 Project Imaging-X(大规模医学影像数据综述与开源开放共享平台)在国内外引起广泛关注。此外,还参与了通用多模态大模型 InternVL、科学多模态大模型 Intern-S1,以及生成理解一体化模型 Lumina-DiMOO 等重要项目的研发工作。
研究方向
- 医学多模态大模型:GMAI-VL 系列、UniMedVL、SlideChat
- 医学图像分割基础模型:SAM-Med2D、SAM-Med3D、STU-Net(14M–1.4B 参数)
- 临床 AI 系统:MedSegAgent 多智能体分割、手术视频理解(OphCLIP、Ophora)
- 医学数据基础设施:Project Imaging-X(整合 1000+ 开放医学影像数据集)
- 高效深度学习:模型压缩、神经架构搜索、量化
代表性成果
GMAI 研究组在通用医学 AI 领域取得了系统性突破:
医学多模态大模型 — GMAI-VL 在 550 万图文对上训练,覆盖 18 个临床专科和 38 种影像模态,是国际领先的医学视觉语言模型。SlideChat 是全球首个能直接理解千亿像素全切片病理图像的视觉语言助手(CVPR 2025)。GMAI-VL-R1 通过强化学习在 8 种影像模态上实现约 30% 的平均准确率提升,超越 36 倍参数量的模型。
医学分割基础模型 — SAM-Med3D 将 SAM 架构拓展至三维医学影像,成为该领域最广泛使用的开源模型之一。STU-Net 系列(14M–1.4B 参数)是迄今最大的医学图像分割模型,在 TotalSegmentator 上达到 90.06% 平均 DSC,荣获 MICCAI 2023 ATLAS 和 SPPIN 挑战赛双料冠军。
临床 AI 系统 — OphCLIP(ICCV 2025)构建了 37.5 万视频-文本对的眼科手术数据集,在 11 个基准上取得零样本最优性能。MedSegAgent 通过多智能体协作实现覆盖 23 个数据集、343 个分割目标的通用医学图像分割(IEEE JBHI 2026)。
学术成果概览
- 在 CVPR、ICCV、ECCV、NeurIPS、MICCAI、AAAI 等顶级会议发表多篇论文
- 多个开源项目累计获得 数千 GitHub Stars
- 团队成果被 斯坦福大学 等顶级机构关注并寻求合作
- 指导团队在 MICCAI 2023 多项挑战赛中获得冠军
早期代表性工作
- APCNet:自适应金字塔上下文网络用于语义分割(CVPR 2019)
- Dynamic Multi-scale Filters:动态多尺度滤波器用于语义分割(ICCV 2019)
- EfficientFCN:整体引导解码用于语义分割(ECCV 2020,4 篇 ECCV 同年发表)
- ODIR-2019 竞赛:眼部疾病智能识别国际竞赛第一名(1/1500+)
学术服务
- CVPR、MICCAI、ICME 等国际会议审稿人