AI智能体新摩尔定律：任务完成长度7个月翻一番，五年内或现AI研究员-AITOP100,AI资讯

AI智能体的全新摩尔定律被发现！

一家名为METR的机构，最近发布了一项惊人的研究成果：他们发现AI智能体的发展速度遵循一种全新的摩尔定律，过去六年里，AI完成任务的长度，竟然每7个月就会翻一番！这意味着，在未来的五年内，我们极有可能迎来AI研究员，它们可以独立自主地完成人类需要花费数天甚至数周才能完成的软件开发任务。

METR研究所的这项发现，无疑给AI领域带来了一颗重磅炸弹。他们称之为AI智能体Scaling Law，其核心观点是：

AI可执行任务的长度，每七个月翻一番。

这项研究的背后，是METR发表的一篇长达45页的论文，论文地址：https://arxiv.org/abs/2503.14499 （注：不可点击）

METR是一家位于加州的非营利研究所，他们的研究人员提出，衡量AI智能体性能的关键指标应该是其能够完成的任务长度。为了验证这一观点，他们精心设计了近170个真实的任务，这些任务涵盖了编程、网络安全、通用推理以及机器学习等多个领域。同时，他们还测量了人类专家完成这些任务所需的时间，以此建立了一条“人类基准线”。

基于这些数据，他们发现了一个惊人的规律：AI智能体能够完成的任务长度在过去六年里呈现出指数级的增长，并且所需翻倍的时间大约为7个月。

如果按照这一趋势推断，五年后，我们将很有可能看到AI智能体能够独立完成当前需要人类耗时数天甚至数周才能完成的大部分软件开发任务。更令人震惊的是，如果这一Scaling Law能够持续到本十年末，那么前沿的AI系统甚至能够自主执行为期一个月的项目！

这一结论无疑是爆炸性的，Nature杂志也迅速采访了研究团队，并发布了一篇相关的报道。

AI独立研究员，真的要来了？

METR的研究人员表示，他们之所以进行这项研究，是因为他们意识到，当前的基准测试很快就会达到饱和状态，并且无法很好地转化为AI对现实世界的影响。

所有人都感受到，有一种“某种东西”正在迅速崛起，但这种东西究竟是什么呢？

对此，专家们的观点各不相同，有人认为“AGI几年内就会出现”，也有人认为“Scaling Law已经撞墙了”！

METR希望能够从目前AI模型的表现中抓住这种“某种东西”，而这条全新的Scaling Law也由此诞生。

这项研究立刻在AI社区引发了巨大的讨论。ARIA Research的项目总监Davidad在这条Scaling Law曲线上发现了一个亮点：合成数据的自我改进，比如带有可验证奖励的CoT上的RL，已经引发了一种全新的增长模式！

研究中的另一项图表也印证了他的第二项观点：pass@8已经接近8小时的范围。

ALTER的创始人表示，Claude能玩宝可梦已经证明了这项研究的观点，如果继续翻倍，游戏会需要26小时，所以时间点大概在3年后，甚至还会更快！

全新Scaling Law：6年内，AI任务长度7个月翻一番

METR认为，预测未来AI系统的能力，对于理解和准备应对强大AI所带来的影响至关重要。

然而，我们应该如何准确地预测AI能力的发展趋势呢？这项任务目前仍然非常艰巨。

而且，即使我们想要理解当今模型的能力，也往往很难把握。

尽管目前最前沿的AI系统在文本预测和知识处理任务上已经远远超过了人类，并且能够以远低于人力的成本在大多数考试中超越人类专家，但它们仍然无法独立完成实质性的项目，或者直接替代人类劳动。

甚至，它们也无法处理基于计算机的低技能工作，比如远程行政助理。

那么，我们该如何衡量它们对于现实世界的实际影响呢？

METR的研究人员表示，一个有效的方法就是衡量AI模型能够完成的任务长度。

这是因为，AI智能体的主要挑战并不在于缺乏解决单个步骤所需的技能或知识，而在于难以连续执行较长的动作序列。

因此，他们让AI智能体完成了一组多样化的多步骤软件和推理任务，并且记录了具有专业知识的人类所需的时间，从而有了一个有趣的发现：

人类专家完成任务的时间，能够有效地预测模型在特定任务上的成功率。

比如，当前模型在人类耗时不足4分钟的任务上，几乎能够达到100%的成功率，但在需要人类耗时超过4小时的任务上，成功率则低于10%。

由此，研究人员想到，可以用“模型以x%概率成功完成的任务所对应的人类完成时长”来描述模型的能力水平。

对于每个模型，他们都拟合了一条逻辑斯蒂曲线，基于人类任务时长预测模型的成功概率。

在设定特定的成功概率后，就可以找到预测成功曲线与该概率水平的交点，从而获得对应的任务时长，这样就能将每个模型的性能用时间跨度来表示。

以下是几个模型的拟合成功曲线，以及这些模型在预测成功率为50%时所对应的任务时长：

以上图最右侧用最深绿色表示的模型Claude 3.7 Sonnet为例，其时间跨度约为一小时，这是该模型的拟合逻辑斯蒂曲线与50%成功概率阈值的交点所在。

在研究人员看来，这些结果可以解释这个矛盾：为什么模型在众多基准测试中已经表现出超越人类的能力，却始终无法自主可靠地完成人类工作。

原因在于，最先进的AI模型（如Claude 3.7 Sonnet）虽然能够完成某些人类专家数小时才能完成的任务，但如果要论可靠地生成，它们就只能完成几分钟以内的任务了。

但是，在分析历史数据后，他们有了一个令人惊喜的发现：

最先进AI模型能够完成的任务时长（以50%成功概率为标准），在过去6年间已经实现了显著增长！

当把这些数据在对数尺度上绘制时，就可以发现全新的Scaling Law：模型能够完成的任务时长呈现出明显的指数增长规律，倍增周期约为7个月。

METR的研究人员表示，他们有充分的把握可以确定这项全新Scaling Law的正确性，即每年实现1-4次倍增。

如果在过去六年内观察到的这一Scaling Law在未来2-4年内依然持续存在，那么未来的通用自主智能体，就完全有能力执行需要一周时间才能完成的任务！

这条曲线的陡峭程度也意味着，即使存在较大的误差，研究人员对于不同能力何时到来的时间点预测仍然相对可靠。

比如，即使绝对测量值出现了10倍的误差，那么实际预测时间的误差也仅为2年而已。

50%成功率，究竟代表什么

那么，团队为什么会选择50%的成功率标准呢？

原因在于，这项指标对于数据分布的细微变化最不敏感。

在Nature的报道中，共同作者Lawrence Chan这样解释道：“如果选择过低或过高的阈值，仅仅添加或删除一个成功或失败的任务样例，就会导致估计结果发生显著变化。”

如果将可靠性阈值从50%提高到80%，的确会使平均时间跨度缩短五倍，但即使这样，整体的倍增周期和发展趋势仍然和之前保持类似。

这项研究的最大意义在哪里？

共同作者Ben West表示，他们采用的这个时间跨度方法解决了现有AI基准测试的若干局限性，因为传统基准测试与实际工作的关联较弱，并且随着模型改进容易迅速达到“饱和”。

相比之下，这种新方法提供了一个连续的、直观的衡量标准，能够更好地反映有意义的长期进展。

而在论文中，他们还证实了类似的发展曲线在以下方面同样成立：

代表不同分布的多个任务子集（包括短期软件任务、多样化的HCAST、RE-Bench，以及按任务时长或“复杂程度”定性评估筛选的子集）。

基于真实任务的独立数据集（SWE-Bench Verified），其中的人类完成时间数据是基于估算而非基准测试获得的。它显示出更快的倍增速度，周期还不到3个月。

另外，研究人员也在论文中进一步证明：研究结果对所选的任务或模型类型并不敏感，同时也不会受到任何方法论选择或数据噪声的显著影响。

当然，研究人员也承认，模型可能存在显著的误差。比如近期的AI发展趋势，就会比2024年之前的趋势更好地预测未来表现。

比如在上图中，如果仅基于2024年和2025年的数据拟合类似趋势时，AI能够以50%可靠性完成一个月长度任务的预估达成时间，就提前了约2.5年。

METR的研究人员表示，这项研究对于AI基准评测、发展预测和风险管理都具有重大的意义。

首先，他们的方法提升了基准评测的预测价值，能够在不同能力水平和多样化领域量化模型的进步程度。

因为和实际成果直接相关，所以对相对性能和绝对性能，都能进行有意义的解读。

其次，他们发现的AI发展Scaling Law趋势十分稳健，并且是和实际影响密切相关的。

如果未来十年内，AI系统能够自主执行为期一个月的项目，那么它当然会给人类带来巨大的潜在效益，但同时也会带来巨大的潜在风险。

专家质疑：这条Scaling Law，真的反映现实世界吗？

不过，对于这项引起巨大反响的研究，也存在一些质疑的声音。

加拿大多伦多大学管理学教授Joshua Gans就认为，此类预测的实用价值非常有限。

在他看来，虽然推出一条Scaling Law很有诱惑力，但考虑到我们对AI实际应用方式的认知仍然有限，这些预测可能缺乏实际意义。

旧金山的AI研究员和企业家Anton Troynikov也指出，虽然任务完成时间跨度是一个评价的有效指标，但可能无法充分反映模型的泛化能力——或许在面对与训练数据不同的任务时，模型的表现就会完全不一样。

METR也承认，这项方法无法完全涵盖真实工作环境的所有复杂性，但他们强调，在验证任务与实际工作的相似程度时，时间跨度的增长仍然呈现出相似的指数增长趋势。

所以，他们对于时间点的预测准确吗？

研究人员承认，多个因素会影响他们的预测。

首先，虽然过去五年计算能力实现了显著的提升，但物理限制和经济因素会制约未来的Scaling，造成阻碍。

不过他们相信，这种影响会被持续的算法改进所部分抵消。

而且未来，学术界还会更加增强模型的自主性，提高AI在研究自动化方面的效能，这还会导致更积极的结果。

METR的研究人员Megan Kinniment，对于外界的质疑给出了这样的解释。

首先，所有的基准测试都要比实际任务更加“干净”，这项任务集合也是如此。

因为他们的任务具有自动评分机制，并且不涉及与其他智能体的交互。而他们研究的，就是智能体的性能如何依赖这些“杂乱”因素。

包含的“杂乱”因素越多，AI智能体的表现就会越差。

本来，Kinniment以为他们会在更杂乱的任务中发现明显的平台期。但结果并没有！

尽管杂乱的任务更难，但AI在这些任务上的改进速度并没有慢很多。

而且，即使是最杂乱的任务，也不算太杂乱。比如，1分钟以上任务的平均杂乱度评分仅为3.2/16，没有任何任务的混乱度超过8/16，“撰写一篇研究论文”的混乱度评分大约在9/16到15/16之间。

当然，他表示，方法论上仍然有很多可以改进的地方。

不过在未来，AI在杂乱任务上的性能到底有多重要呢？这个问题就留待探索了。

参考资料：

https://arxiv.org/abs/2503.14499 （注：不可点击）

https://www.nature.com/articles/d41586-025-00831-8#ref-CR1 （注：不可点击）

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ （注：不可点击）

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。（注：不可点击）