自动化科学研究:AI如何接手长程机器学习研究工程 编辑:LRST 自动化科学研究已成为人工智能领域备受关注的前沿方向。在机器学习场景下,越来越多的系统能够参与到从想法生成、文献综述、定向实验到科学写作等研究环节中。无论是从论文到代码,还是从实验到分析,AI for Research 的应用边界都在快
编辑:LRST
自动化科学研究已成为人工智能领域备受关注的前沿方向。在机器学习场景下,越来越多的系统能够参与到从想法生成、文献综述、定向实验到科学写作等研究环节中。无论是从论文到代码,还是从实验到分析,AI for Research 的应用边界都在快速扩展。
长期稳定更新的攒劲资源: >>>点此立即查看<<<
那么,下一个关键突破口在哪里?中国人民大学团队研发的AiScientist系统,提供了一个具有高度操作性的答案:聚焦于长程机器学习研究工程。

中国人民大学团队打造的AiScientist,旨在解决长程机器学习研究工程中的持续性难题。该系统从论文理解开始,贯穿环境配置、代码实现与实验迭代全过程,保持状态连续与决策连贯,从而显著提升科研效率。其核心在于通过File-as-Bus机制,稳定保存项目状态,使AI能够真正接手科研流程,而非仅仅辅助单个环节。
AiScientist的切入点,是在现有进展基础上,进一步关注一个更贴近真实科研流程的设定:长程机器学习研究工程。在这一设定下,系统需要完成的不是某个孤立环节,而是要从论文或研究目标出发,连续处理环境配置、依赖管理、资源获取、代码实现、实验执行、结果对比、错误归因和反复修复。这既包含局部环节的技术难度,也面临跨阶段持续推进的系统性挑战。
更为关键的是,这些问题往往不会即时暴露。一个早期决策的微小偏差,可能要到数小时后的实验结果中才会显现;而一旦项目状态在多轮推进中丢失,后续阶段将难以判断问题究竟源于论文理解、实现细节、数据处理还是基础设施配置。
中国人民大学高瓴人工智能学院提出的AiScientist,正是沿着这一方向,试图将AI从“能参与若干研究环节”进一步推进到“能持续接手研究工程流程”。

论文链接:https://arxiv.org/pdf/2604.13018
代码仓库:https://github.com/AweAI-Team/AiScientist

AiScientist能力的一个直观体现,来自其在MLE-Bench Lite的Detecting Insults任务上的表现。在该任务中,AiScientist在23小时内自主完成了74轮实验循环,将验证集AUC从0.903提升至0.982,期间实现了18次最佳结果更新。
这一结果的意义不仅在于性能指标的提升,更在于它展示了一条完整的研究工程链路:从读取任务、搭建环境、撰写实现,到运行实验、分析偏差、修补系统、再次验证结果,整个过程实现了持续迭代,而非单次生成。
换言之,AiScientist的目标并非打造一个更强的代码助手,而是让AI在真实科研流程中,具备持续推进复杂任务的能力。
目前已有不少AI for Research系统能够在某些研究环节展现出强大能力,例如生成代码、总结论文、辅助实验设计,甚至完成整篇论文的撰写。
AiScientist则聚焦于实验性更强的场景:机器学习研究工程。这并非一个单点问题,而是一条跨阶段、长时间的连续任务链。系统需要先理解论文和目标设定,再处理依赖与资源,完成实现,运行实验,并根据实验输出进行归因、修正和持续迭代。
其中每一个环节本身都颇具挑战:论文可能不完整或欠规格化;环境配置与依赖下载常常琐碎而脆弱;实验反馈具有明显延迟,且错误原因往往交织在实现、数据、超参与基础设施多个层面。
相关研究也指出,这一困难已在严苛评测中有所体现:在PaperBench这类高难度的从零复现任务上,最佳已报告智能体仅达到约21%的复现评分,而顶尖机器学习博士生在48小时预算下可达到41%。这说明,长程研究工程的瓶颈不仅在于模型能否完成局部推理,更在于系统能否跨越多个阶段,保持状态连续和决策连贯。
也就是说,长程机器学习研究工程既包含许多高难度的局部问题,也要求将这些环节在时间线上顺序串联、相互校正、持续推进。真正的难点,不只是“某一轮会不会推理”,而是系统能否在不同阶段之间保持连贯的进展。

AiScientist的核心设计理念可以概括为:轻量控制,厚重状态。
在这套系统中,顶层的协调器负责阶段级控制与任务推进,相当于一个轻量的总调度器;而真正承载项目记忆的,并非一轮轮的对话上下文,而是工作空间中持续演化的分析、计划、代码、日志与实验记录。
换言之,AiScientist并不试图让某一个智能体记住所有细节,而是让不同角色围绕一个持续更新的项目状态展开协作。顶层控制保持轻量,底层状态保持厚实,使得系统能够在长程任务中逐步积累,而非反复从头开始。
这也是该项工作的一个重要判断:让系统跑通长程任务的关键,不只是多智能体分工本身,而是这种分工能否建立在稳定、可继承的项目状态之上。
AiScientist将这种“项目状态”进一步落实为File-as-Bus机制。
简单来说,它不是把文件当作普通附件存放,而是将文件系统本身作为长程协作的底座。论文分析、任务计划、实现代码、实验日志、错误记录和中间结果,都被持续写回工作空间,成为后续阶段可以重新读取和利用的持久化产物。
这意味着,系统不是依赖对话中残留的几句摘要继续工作,而是可以围绕真实存在的项目证据来推进下一步决策。对于长程研究工程而言,这一点至关重要。因为前一阶段的某个判断,可能会在几个小时后才以实验异常的形式暴露出来;如果这些中间状态无法被完整保留,后续阶段将难以准确归因,更难以在正确位置进行修补。
因此,AiScientist的重点不仅是“让多个智能体配合起来”,更是让整个系统具备一种更稳定的外部记忆能力。真正需要被传递的,不是某一轮的表面结论,而是项目在不同阶段逐步积累下来的状态本身。

在PaperBench评测中,AiScientist相对于最佳匹配基线平均提升约10.54分。这一结果表明,它并非仅在个别案例上有效,而是能够在从论文复现到完整工程实现的高难度场景中,稳定拉开与现有方法的差距。

在MLE-Bench Lite评测中,AiScientist达到了81.82%的“任意奖牌”率,说明它不仅擅长“把系统先跑起来”,也能在更接近真实竞赛和研究迭代的场景中持续优化结果。
更重要的是,这种提升并非简单地通过“增加交互轮次”堆砌而来。论文明确指出:仅仅增加交互轮次是不够的。额外的轮次只有建立在前序正确积累的状态之上,才会真正转化为长程能力。否则,更多交互反而可能带来更高成本和更多噪声。

机制分析进一步证实了这一点。移除File-as-Bus机制后,AiScientist在PaperBench上的得分下降6.41分,在MLE-Bench Lite上的“任意奖牌”率下降31.82个百分点。这表明,状态连续性并非一个“锦上添花”的设计,而是长程研究工程中真正影响系统能否持续推进的关键因素之一。
同时,论文也未将File-as-Bus视为唯一答案。实验同样表明,层级化协调也在性能提升中起到了重要作用。换言之,AiScientist的价值并非来自某一个单独组件,而是源于协调机制与状态连续性共同支撑的系统设计。
如果仅看评测结果,AiScientist的贡献似乎只是“分数更高了”。但从其机制分析来看,这项工作的价值更为立体。
第一,长程机器学习研究工程不仅是许多局部问题的堆叠,其本身还是一个更复杂的系统问题。论文理解、环境配置、资源下载、代码实现、实验执行、误差诊断,这些环节单独拿出来,很多都已是足够困难的技术任务;更难的是,要将这些环节在长时间跨度里顺序衔接、相互校正、持续推进。也正因如此,决定系统成败的,不只是某一步做得好不好,而是整个流程能否在跨阶段推进中保持连贯。
第二,AiScientist的关键,不只是采用了多智能体架构,更是将状态连续性做成了系统能力。层级化协调固然重要,它帮助不同角色聚焦不同阶段;但真正让这种组织形式产生复利的,是项目状态能否以持久化产物的形式被稳定保存、读取、继承和继续利用。换言之,多智能体是组织形式,状态连续性才是这套系统真正跑通长程任务的基础。
第三,File-as-Bus的价值,更多体现在后期精炼,而不仅仅是前期搭建一个能运行的脚手架。从消融实验结果看,去掉File-as-Bus后,系统未必立刻丧失基础可运行性,但在更依赖后期优化和结果逼近的指标上,会出现更明显的退化。这意味着它真正带来的,不只是可执行性,更是保真度:让系统能在多轮诊断、修补、对齐和优化中,将每一轮试错都建立在前一轮留下的有效证据之上。
从更广阔的视角看,AiScientist指向了一个比基准测试分数更值得关注的问题:AI能否真正进入科研流程,而不仅仅是停留在某一个局部环节。
长程机器学习研究工程既是许多困难局部问题的串联,也是一个更艰巨的系统问题。每个局部环节都足够复杂,而把这些环节衔接起来、在多轮反馈中保持一致性、让前一轮决策真正服务于后一轮推进,则更具挑战。
AiScientist给出的一个重要启示是:未来的AI科研系统,关键不只是模型会不会推理、会不会写代码、会不会调用工具,而是能否在长时间跨度里稳定保存、继承并利用项目状态。
这也是为什么这项工作值得放在更广泛的AI for Research进展中审视。它讨论的不是单步能力的再增强,而是AI如何真正从“辅助一个环节”走向“接手一条流程”。
与此同时,团队也在将AiScientist从基准测试中的评测对象,逐步推进为真实可用的软件系统。换言之,这项工作不仅想回答“分数能不能提高”,也想回答“AI能不能真正走进实验、复现、调参和迭代的日常流程里,进一步解放实验层面的生产力”。
AiScientist试图推动的,并不只是一个更强的科研智能体,而是一种对长程研究工程的新理解:在真实科研任务中,真正重要的往往不是单次生成得多漂亮,而是系统能否在跨阶段、跨轮次、跨文件的任务链中,把项目状态稳定存续,并据此持续推进。
如果这一点成立,那么AI进入科研流程的方式,也将从“辅助某一步”逐渐走向“接手整条链路”。
参考资料:
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述