一项以数据为中心的综合性综述,系统梳理了涵盖所有主要科学学科的 270+ 预训练/后训练数据集和 190+ 评测基准
Scientific Large Language Models (Sci-LLMs) 正在深刻变革科学研究中知识的表示、整合与应用方式,而其发展进程则受到科学数据复杂本质的深刻影响。本综述提出了一种以数据为中心的综合性框架,将 Sci-LLMs 的发展重构为模型与其底层数据基底之间的协同演化过程。文中构建了统一的科学数据分类体系和层次化的科学知识模型,着重阐述了多模态、跨尺度和领域特异性等关键挑战,这些特征使得科学语料库在本质上有别于通用 NLP 数据集。
本综述系统梳理了近年来的 Sci-LLMs — 从通用基础模型到各科学学科的专用模型 — 并对超过 270 个预训练/后训练数据集和超过 190 个评测基准数据集进行了深入分析。研究表明,Sci-LLMs 面临着独特的需求:异构、多尺度、高不确定性的语料库要求在保持领域不变性的同时实现跨模态推理的表示能力。
在评测方面,本综述追踪了从静态考试式评估向面向过程和发现导向评估的范式转变,涵盖了先进的评估协议。这些以数据为中心的分析揭示了科学数据发展中持续存在的问题,并探讨了涉及半自动标注流水线和专家验证的新兴解决方案。最后,本工作勾勒了向闭环系统演进的范式转变 — 基于 Sci-LLMs 的自主智能体主动进行实验、验证,并持续贡献于不断演化的活体知识库。
本综述构建了涵盖六大类别的统一科学数据分类体系:文本格式、视觉数据、符号表示、结构化数据、时间序列数据和多组学整合。与之配套的是跨越五个层次的科学知识层次结构 — 事实性知识、理论性知识、方法与技术知识、建模与仿真知识以及洞见知识 — 各层次之间具有动态交互和演化关系。该框架为理解科学语料库为何需要与通用 NLP 数据集本质不同的处理方式提供了原则性视角。
本工作提供了迄今为止最全面的 Sci-LLMs 综述,涵盖物理学、化学、材料科学、生命科学、天文学和地球科学。系统编目了超过 270 个预训练/后训练数据集,并对通用型和领域专用型 Sci-LLMs 进行了全面审视。分析揭示了 Sci-LLMs 面临的独特挑战 — 异构、多尺度、高不确定性的语料库 — 要求在保持领域不变性的同时实现跨多种科学模态的跨模态推理能力。
通过审视超过 190 个评测基准,本综述追踪了从静态考试式评估向面向过程和发现导向评估的范式转变,涵盖了 LLM/Agent-as-a-Judge 和 test-time learning 等先进评估协议。更为重要的是,本工作勾勒了一种全新范式 — 基于 Sci-LLMs 的自主科学智能体组成闭环系统,主动进行实验、验证,并持续贡献于活体知识库 — 涵盖多智能体协作、工具使用、自进化智能体和自主科学发现等方向。
本综述为构建可信赖、持续演化的人工智能系统提供了路线图,使其成为加速科学发现的真正合作伙伴。通过将 Sci-LLM 的发展重构为模型与数据基底之间的协同演化,本工作揭示了科学数据发展中持续存在的问题 — 包括数据溯源危机、科学数据滞后性以及 AI-readiness 不足 — 同时指出了涉及半自动标注流水线、专家验证和科学数据生态系统操作系统级交互协议的新兴解决方案。
Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, et al.
由来自上海人工智能实验室、Monash University、复旦大学、上海交通大学、香港中文大学、UCL、Stanford、Virginia Tech、Johns Hopkins、University of Cambridge、香港大学、Caltech 等 20+ 所全球机构的 80+ 位研究者合作完成。 通讯作者:Zongyuan Ge、Shixiang Tang、Junjun He、Chunfeng Song、Lei Bai、Bowen Zhou。