首个根据自然语言指令生成逼真眼科手术视频的开创性模型,基于 160K+ 视频-指令对构建
在眼科手术领域,开发能够理解手术视频并预测后续操作的 AI 系统需要大量高质量标注的眼科手术视频,而此类数据因隐私问题和标注成本难以获取。文本引导的视频生成(T2V)通过根据医生指令生成眼科手术视频,为解决这一问题提供了一条有前景的路径。
Ophora 是首个能够根据自然语言指令生成眼科手术视频的开创性模型。该方法首先提出了一套综合数据整理流程,将叙述性眼科手术视频转换为包含超过 160K 视频-指令对的大规模高质量数据集(Ophora-160K)。随后,通过渐进式视频-指令微调方案,将在自然视频-文本数据集上预训练的 T2V 模型中丰富的时空知识迁移至隐私保护的眼科手术视频生成任务。实验表明,Ophora 能够生成逼真且可靠的眼科手术视频,并通过定量分析与眼科医生反馈双重验证。
Ophora-160K 包含从 9,819 个叙述性眼科手术视频中提取的 162,185 个视频片段-指令对,平均片段时长为 5.54 秒。该数据集通过综合数据整理流程构建,包括利用 Qwen2.5-72B 进行叙述信息精炼以去除字幕中的无关信息并将其转化为生成指令,以及利用 PySceneDetect 进行基于动态特性的过滤以剔除时间动态异常的片段。分辨率低于 720×480 的片段被进一步移除以确保质量。
Ophora 以 CogVideoX-2b 为骨干网络,采用两阶段训练策略。迁移预训练阶段使用完整的 Ophora-160K 数据集对去噪网络进行持续预训练,同时保持 T5 编码器与 VAE 冻结不变,并在多 GPU 间采用时间步子区间采样以提升训练效率。隐私保护微调阶段利用 Qwen2.5-VL-72B 检测并过滤含有敏感信息(字幕、水印)的视频,构建包含超过 28K 视频-指令对的隐私保护子集 Ophora-28K,用于微调以增强隐私保护同时避免覆盖先前习得的时空知识。
与当前最先进的手术视频生成模型 Endora 和 Bora 相比,Ophora 在所有指标上均取得最优性能,FID 和 FVD 分数最低,CLIPScore 达到 39.19(最高),充分证明了优异的视频-文本一致性。眼科医生基于七项标准对 600 个生成视频的评估证实,生成场景具有逼真的手术环境、合理的器械使用和连贯的操作流程。作为数据增强工具,Ophora 合成的视频有效提升了下游 OphNet 眼科手术工作流分类性能,其中 MViTv2 在测试集上的阶段级 Top-1 准确率从 37.92% 提升至 42.24%,取得最大幅度的提升。
Ophora 为文本引导的眼科手术视频生成开创了一条全新路径,展现了发展通用手术 AI 系统的巨大潜力。通过将综合数据整理流程与渐进式视频-指令微调相结合,Ophora 能够依据医生指令生成逼真且可靠的眼科手术视频,同时保护患者隐私。所生成的视频可作为有效的增强数据,用于提升下游眼科手术工作流理解,解决了眼科领域标注手术视频数据严重不足的关键难题。
Wei Li, Ming Hu, Guoan Wang, Lihao Liu, Kaijing Zhou, Junzhi Ning, Xin Guo, Zongyuan Ge, Lixu Gu, Junjun He