科学智能

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

一项以数据为中心的综合性综述，系统梳理了涵盖所有主要科学学科的 270+ 预训练/后训练数据集和 190+ 评测基准

由上海人工智能实验室主导，联合 Monash University、复旦大学、上海交通大学、香港中文大学、 University College London、Stanford University、Virginia Tech、Johns Hopkins University、University of Cambridge、香港大学、Caltech 及 15+ 所全球机构共同合作。

GitHub 仓库

图 1. 科学探究的连续体，跨越从亚原子粒子、原子与分子结构、细胞与生物体生物学、生态系统、行星科学到宇宙学现象的多个尺度 — 展示了自然现象的嵌套层级结构以及 Scientific LLMs 所需涵盖的对应学科框架。

Scientific Large Language Models (Sci-LLMs) 正在深刻变革科学研究中知识的表示、整合与应用方式，而其发展进程则受到科学数据复杂本质的深刻影响。本综述提出了一种以数据为中心的综合性框架，将 Sci-LLMs 的发展重构为模型与其底层数据基底之间的协同演化过程。文中构建了统一的科学数据分类体系和层次化的科学知识模型，着重阐述了多模态、跨尺度和领域特异性等关键挑战，这些特征使得科学语料库在本质上有别于通用 NLP 数据集。

本综述系统梳理了近年来的 Sci-LLMs — 从通用基础模型到各科学学科的专用模型 — 并对超过 270 个预训练/后训练数据集和超过 190 个评测基准数据集进行了深入分析。研究表明，Sci-LLMs 面临着独特的需求：异构、多尺度、高不确定性的语料库要求在保持领域不变性的同时实现跨模态推理的表示能力。

在评测方面，本综述追踪了从静态考试式评估向面向过程和发现导向评估的范式转变，涵盖了先进的评估协议。这些以数据为中心的分析揭示了科学数据发展中持续存在的问题，并探讨了涉及半自动标注流水线和专家验证的新兴解决方案。最后，本工作勾勒了向闭环系统演进的范式转变 — 基于 Sci-LLMs 的自主智能体主动进行实验、验证，并持续贡献于不断演化的活体知识库。

核心亮点

01 — 统一的数据分类体系与知识层次结构

本综述构建了涵盖六大类别的统一科学数据分类体系：文本格式、视觉数据、符号表示、结构化数据、时间序列数据和多组学整合。与之配套的是跨越五个层次的科学知识层次结构 — 事实性知识、理论性知识、方法与技术知识、建模与仿真知识以及洞见知识 — 各层次之间具有动态交互和演化关系。该框架为理解科学语料库为何需要与通用 NLP 数据集本质不同的处理方式提供了原则性视角。

02 — 跨学科的全面模型与数据集分析

本工作提供了迄今为止最全面的 Sci-LLMs 综述，涵盖物理学、化学、材料科学、生命科学、天文学和地球科学。系统编目了超过 270 个预训练/后训练数据集，并对通用型和领域专用型 Sci-LLMs 进行了全面审视。分析揭示了 Sci-LLMs 面临的独特挑战 — 异构、多尺度、高不确定性的语料库 — 要求在保持领域不变性的同时实现跨多种科学模态的跨模态推理能力。

03 — 从静态基准到智能体驱动的科学发现

通过审视超过 190 个评测基准，本综述追踪了从静态考试式评估向面向过程和发现导向评估的范式转变，涵盖了 LLM/Agent-as-a-Judge 和 test-time learning 等先进评估协议。更为重要的是，本工作勾勒了一种全新范式 — 基于 Sci-LLMs 的自主科学智能体组成闭环系统，主动进行实验、验证，并持续贡献于活体知识库 — 涵盖多智能体协作、工具使用、自进化智能体和自主科学发现等方向。

结论

本综述为构建可信赖、持续演化的人工智能系统提供了路线图，使其成为加速科学发现的真正合作伙伴。通过将 Sci-LLM 的发展重构为模型与数据基底之间的协同演化，本工作揭示了科学数据发展中持续存在的问题 — 包括数据溯源危机、科学数据滞后性以及 AI-readiness 不足 — 同时指出了涉及半自动标注流水线、专家验证和科学数据生态系统操作系统级交互协议的新兴解决方案。

核心贡献

提出了以数据为中心的综合性框架，将 Sci-LLM 的发展重构为模型与底层数据基底之间的协同演化，构建了统一的科学数据分类体系和层次化的科学知识模型。
系统综述了涵盖六大科学学科（物理学、化学、材料科学、生命科学、天文学、地球科学）的 Sci-LLMs，编目了 270+ 预训练/后训练数据集并分析了其独特需求。
审视了 190+ 评测基准，追踪了从静态考试向面向过程和发现导向评估的转变，包括 LLM/Agent-as-a-Judge 评估协议。
勾勒了向闭环科学智能体的范式转变 — 智能体主动进行实验、验证并持续贡献于活体知识库，为可信赖的 AI 驱动科学发现提供了全面路线图。

作者

Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, et al.

由来自上海人工智能实验室、Monash University、复旦大学、上海交通大学、香港中文大学、UCL、Stanford、Virginia Tech、Johns Hopkins、University of Cambridge、香港大学、Caltech 等 20+ 所全球机构的 80+ 位研究者合作完成。
通讯作者：Zongyuan Ge、Shixiang Tang、Junjun He、Chunfeng Song、Lei Bai、Bowen Zhou。

GitHub 仓库 ← 返回项目列表

</div>