在 AI 生成文本、图像、代码之后,一个更具野心的目标浮出水面:让 AI 自己当科学家。从设计实验、执行操作、分析数据,到撰写完整的学术论文,整个科研流程正在被逐步自动化。Sakana AI 推出的“AI 科学家”系统,以及斯坦福与卡内基梅隆大学联合开发的“Coscientist”,已经在机器学习、化学合成等领域产出了可被学术会议接收的论文。一个根本性的问题随之而来:AI 科学家产出的成果,我们能信任吗?
一、AI 科学家能做什么
目前较为成熟的 AI 科学家系统,已经能够覆盖科研流程的多个关键环节。
文献综述与假设生成是第一步。AI 可以快速扫描指定领域内的海量预印本和已发表论文,提取研究趋势、争议焦点和未解决的问题,并据此生成可验证的科学假设。例如,AI 科学家系统在无人工干预的情况下,自主提出了“在训练数据中增加某类样本的比例能否提升小样本学习任务的性能”这一具体假设,并设计了验证实验。
实验设计与执行层面,AI 的突破尤其引人注目。在化学领域,Coscientist 能够自主搜索化学反应文献,调用机器人实验平台,完成从试剂分配、温度控制到产物检测的全流程操作。在一次演示中,该系统成功设计并执行了钯催化的碳-碳偶联反应,这类反应曾获得诺贝尔化学奖,其操作复杂度通常需要数年的专业训练。在机器学习领域,AI 科学家可以自动修改模型架构、调整超参数、运行训练脚本并记录结果。
数据分析与可视化方面,AI 能够读取实验结果(如图像、数值表格、谱图),调用统计检验方法,判断结果是否显著,并生成可供论文直接使用的图表。在多个案例中,AI 对实验结果的分析结论与人类专家基本一致。
论文撰写是 AI 科学家最令人惊叹的能力。系统会按照标准学术论文结构——摘要、引言、方法、结果、讨论——生成完整的初稿,包括自动引用相关文献。Sakana AI 展示的案例中,系统产出的论文在内容逻辑和格式规范上达到了可被机器学习会议评审的程度,部分论文甚至通过了同行评议的初步筛选。
二、我们已经走到了哪一步
AI 科学家并非科幻概念,而是已经落地并产出真实成果的系统。
Sakana AI 在 2024 年发布的“AI 科学家”系统,完全自动化了从创意生成到论文撰写的整个闭环。该系统针对机器学习子领域进行了端到端的验证,产出的论文中有一篇被 NeurIPS 2024 的机器学习研讨会接收。虽然接收层级并非顶会正会,但这已经是 AI 作为独立作者跨越的重要里程碑。
斯坦福大学团队开发的 Coscientist 于 2023 年底登上《自然》杂志封面。该系统的核心突破在于将大语言模型的推理能力与自动化实验平台相结合,在无需人类编程的情况下,自主设计并执行复杂的化学反应。该研究本身就被视为 AI 向“自主科学家”迈进的关键一步。
然而,这些成果仍需放在特定条件下理解。目前成功的案例主要集中在化学合成和机器学习超参数优化这两个相对“结构化”的领域——前者有明确的反应规则和标准化的操作流程,后者有清晰的评估指标和自动化的训练框架。在理论物理、生态学、临床医学等需要复杂背景知识和非标准化判断的领域,AI 科学家远未达到可用水平。
三、信任危机的根源
尽管 AI 科学家展示了惊人的能力,但学术界对其产出的信任度仍然极低。这种不信任有着深刻的技术根源。
“幻觉”问题是最大的障碍。大语言模型在生成文本时,会本能地倾向于“填满空白”,而不是坚守事实。当 AI 撰写论文时,它可能编造出不存在的实验数据、捏造统计结果、或者引用毫不相关的文献。有研究者在测试中发现,AI 科学家系统在分析实验结果时,会“创造”出原始数据中根本不存在的趋势线,仅仅因为这样能让论文的结论看起来更漂亮。更隐蔽的问题是,AI 可能生成看似合理但实则错误的推理链条——这种错误往往只有领域内的资深专家才能识别。
缺乏真正理解也是核心缺陷。AI 科学家并不“理解”自己在研究什么问题。它不会产生真正的科学直觉,也不会在实验失败时产生困惑或好奇。它能找到变量之间的相关性,但很难确认真实的因果机制。这意味着,AI 可能发现一个偶然的、不可复现的模式,并将其包装成“重要发现”。科学的基石是可复现性和可解释性,而这两者在当前的 AI 科学家系统中都难以得到保证。
实验执行层面的可靠性同样堪忧。在自动化实验中,AI 调用的机器人平台可能因校准偏差、试剂污染或环境扰动而产生系统误差。AI 不会主动检测这些硬件层面的问题,也不会质疑仪器读数的可信度。如果一个实验结果违反了热力学第二定律,人类科学家会首先怀疑仪器出错了;但 AI 可能会原封不动地将这个“反常结果”写入论文,并试图给出一个聪明的解释。
四、信任需要什么条件
要让 AI 科学家的成果获得学术界的广泛信任,需要在多个层面建立可靠的保障机制。
可追溯性是第一道防线。AI 执行的所有步骤——从文献搜索的范围、假设生成的逻辑、实验参数的选取,到数据处理的具体代码和论文中每一句话的来源——都应当被完整记录并以可审计的形式保存。只有当人类科学家能够回溯“这个结论是怎么来的”,才有可能判断其可靠性。目前一些 AI 科学家系统已经内置了“实验笔记本”功能,但详细程度和可验证性仍有很大提升空间。
重复性验证是科学界的黄金标准。如果 AI 科学家声称发现了某个新现象,其他研究组——无论是使用相同还是不同的自动化系统——应当能够复现该结果。这意味着 AI 科学家产出的论文需要包含足够详细的实验协议和代码,而不只是华丽的叙述。在化学领域,Coscientist 已经能够输出标准化的操作步骤供其他实验室复现,这为建立信任提供了基础。
人机协作审查可能是近期最务实的方案。将 AI 视为“研究助理”而非“独立科学家”,由其完成繁琐的文献整理、实验执行和初稿撰写,最终由人类专家对关键结论进行验证和修正。这种模式下,AI 的产出不直接等同于“可信的真理”,而是加速人类判断的材料。Sakana AI 也明确表示,其系统目前定位是“激发人类灵感”而非“取代人类判断”。
五、不同领域的信任门槛差异
对 AI 科学家的信任要求并非一刀切。不同学科的门槛差异巨大。
在材料科学、药物筛选等“高通量”领域,AI 自动执行大量重复性实验并快速筛选候选物,已被业界广为接受。这些场景下,错误可以容忍——因为最终会由湿实验进行验证,且假阳性的成本相对可控。制药公司已经开始部署类似的自动化平台,将 AI 提出的候选分子进行初步测试,仅将有希望的少数推进到下一阶段。
在数学、理论物理等高度依赖逻辑推理和深层理解的领域,AI 科学家的价值目前极为有限。一个形式化证明中的隐蔽错误可能导致整个理论的崩塌,而 AI 缺乏对“正确性”的深层保障能力。数学家和理论物理学家对 AI 生成证明的接受度仍然极低,除非每个步骤都能被独立验证。
在临床医学和公共健康领域,信任门槛最高。涉及人的生命健康时,任何由 AI 独立得出的诊疗方案或公共卫生结论,都必须经过严格的临床试验和伦理审查。目前没有任何监管机构会接受基于 AI 科学家产出的直接决策。
六、未来展望
AI 科学家的终极价值不在于“取代人类科学家”,而在于将科研人员从繁重的重复劳动中解放出来。文献综述、代码编写、数据整理、图表绘制、参考文献格式化——这些占据科学家大量时间却不需要深层创造力的工作,完全可以交给 AI。真正顶尖的科学突破,仍然依赖于那种难以被算法捕获的“灵光一现”和跨越多个领域的直觉洞察。
当前的 AI 科学家系统更像是“数据驱动的自动化研究引擎”。它在模式识别、高维搜索和大规模筛选上远超人类,但在提出真正颠覆性理论、设计巧妙实验来检验根本性假设方面,能力依然有限。对于“能否信任”这个问题,答案取决于使用方式:作为研究助手,AI 科学家已经值得信赖;作为独立的知识权威,学术界远未准备好为之背书。
未来的科学界,很可能是一个“人类提出问题、AI 探索答案、人类判断意义”的三段式结构。在这个结构中,AI 不会佩戴诺贝尔奖章,但会在实验室的角落里日夜不停地推演、测试、撰写,成为人类求知之路上不知疲倦的同行者。






