面向眼科手术工作流理解的分层检索增强视觉-语言预训练框架,构建于迄今最大规模眼科手术视频-文本数据集 OphVL
视觉-语言预训练(VLP)使模型具备了超越预定义标签的开放世界泛化能力——这在手术场景中至关重要,因为手术操作、器械和患者解剖的多样性使得固定标签集难以胜任。然而,将 VLP 应用于眼科手术面临独特挑战:视觉-语言数据有限、手术工作流复杂且耗时数小时,且需要从精细手术动作到全局临床推理的层次化理解。
为解决这些挑战,我们推出了 OphVL——首个面向眼科手术的大规模层次化 VLP 数据集,包含超过 37.5 万视频-文本对,来自 7,500 小时手术视频。这使 OphVL 的规模达到现有手术 VLP 数据集的 15 倍。数据集涵盖丰富的属性维度:手术阶段、操作步骤、器械使用、用药、疾病病因、手术目标及术后护理。
基于 OphVL,我们提出 OphCLIP——一个分层检索增强 VLP 框架。OphCLIP 通过对齐视频片段与详细解说学习短期表征,通过匹配完整视频与结构化标题摘要学习长期表征,并进一步利用静默手术视频知识库实现基于检索的监督增强。在 11 个基准数据集上的评估表明,OphCLIP 具备稳健的零样本泛化能力,确立了其作为眼科手术基础模型的地位。
OphVL 包含 37.5 万视频-文本对,提取自 13,654 个解说视频和 30,636 个静默视频(总计 9,363 小时)。在三位执业眼科医师的协助下,团队整理了超过 3,000 个眼科手术术语,用于指导 YouTube 频道发现和视频采集。严格的数据清洗流水线——解说风格过滤、基于 Whisper Large-V3 的 ASR 转录、SurgicBERTa 去噪及 LLM 引导的文本改写——产出高质量层次化视频-文本对。
OphVL 涵盖数以万计的属性组合,包括手术类型、阶段/操作/动作、器械、用药、眼疾病因、手术目标和术后护理建议——是迄今最全面的眼科手术数据集。
OphCLIP 在两个层次上进行视觉-语言预训练。在片段级,短视频片段通过对比学习与详细解说文本对齐,捕捉精细的手术动作和器械使用。在视频级,完整手术视频与高层标题摘要匹配,构建长期手术流程上下文和临床推理能力。
核心创新是静默视频检索增强:一个动态更新的记忆库存储 3 万余个静默手术视频的多模态嵌入。系统使用最大内积搜索(MIPS)为每个解说视频检索最相关的 top-K 静默视频,将其作为辅助监督信号。这促进了解说视频与静默视频之间的知识迁移——模拟外科医生同时从有讲解和无讲解手术录像中学习的过程。
OphCLIP 在 11 个基准数据集上取得了强劲的零样本性能,覆盖手术阶段识别和多器械识别任务。在 Cataract-1K 上,OphCLIP 达到 62.8% 准确率 / 48.5% F1——对比 CLIP 的 6.9%/2.0%。在 Cat-21 上达到 41.4% / 28.8%——将 CLIP 的性能提升近三倍。这些增益在细粒度(操作级)和粗粒度(阶段级)任务上均保持一致。
在多器械识别方面,OphCLIP 将假阳性率从 100%(CLIP)大幅降至 45-51%,同时提升 mAP。在使用 100% 训练数据的少样本线性探测中,OphCLIP 在 Cat-21 上达到 72.1% 准确率——展示了强大的可迁移视觉表征。
注意力图可视化表明 OphCLIP 学会了具有临床意义的关注模式。在阶段识别(如超声乳化)中,OphCLIP 聚焦于相关器械和解剖结构,而原始 CLIP 则关注无关背景区域。在器械识别中,OphVL 预训练使 CLIP* 和 OphCLIP 能够一致地关注领域特定工具(如晶体注入器)。
这种跨模态理解——模型在视觉数据中优先关注与文本中手术概念对应的临床相关区域——表明 OphCLIP 真正内化了眼科手术知识,而非依赖虚假视觉关联。
OphCLIP 开创了眼科手术 AI 的新范式:结合最大规模手术 VLP 数据集(OphVL, 37.5 万对)与分层检索增强框架,同时从解说视频和静默视频中学习。在 11 个基准上的稳健零样本性能与具有临床意义的注意力模式,共同奠定了 OphCLIP 作为眼科手术工作流理解基础模型的地位,为更专业化、情境感知的眼科手术 AI 应用开辟了新方向。
Ming Hu, Kun Yuan, Yaling Shen, Feilong Tang, Xiaohao Xu, Lin Zhou, Wei Li, Ying Chen, Zhongxing Xu, Zelin Peng, Siyuan Yan, Vinkle Srivastav, Diping Song, Tianbin Li, Danli Shi, Jin Ye, Nicolas Padoy, Nassir Navab, Junjun He, Zongyuan Ge
ICCV 2025