AI 智能体大 PK：Claude 3.5 Sonnet 怒刷 PaperBench，顶会论文复现实力碾压 GPT-4o！-AITOP100,AI资讯

AI 圈炸锅！Claude 承认自己是老大了？

最近，OpenAI 搞了个大新闻，推出一个名为 PaperBench 的全新基准测试，专门用来测试 AI 智能体的综合实力。这个测试可不是闹着玩的，直接让这些 AI 智能体去复现顶级的 AI 学术会议 ICML 2024 的论文！这一下，各路 AI 大佬纷纷下场，一场精彩的 AI 智能体大战就此拉开帷幕！

结果让人大跌眼镜，Anthropic 的 Claude 3.5 Sonnet 横空出世，直接把 OpenAI 的 GPT-4o 给 PK 下去了，而且还不是小胜，是断崖式领先！OpenAI 官方都忍不住承认 Claude 确实厉害（虽然可能带着点酸溜溜的味道，手动狗头）。

openai

PaperBench 到底是个啥？比之前的测试更难吗？

和 OpenAI 之前搞的 MLE-Bnch 相比，PaperBench 可不仅仅是考验 AI 的代码能力，而是要考察 AI 的综合实力。它不再是让 AI 执行单一任务，而是要让 AI 真正理解论文，然后编写代码，最后还要执行实验，整个流程下来，难度系数直接飙升！

简单来说，PaperBench 就是让 AI 智能体去复刻 ICML 2024 的论文成果，包括理解论文内容、编写实验代码、执行实验并验证结果。这可不是简单的体力活，需要 AI 有很强的理解能力、编程能力和实验能力。

paper bench

战况如何？Claude 3.5 Sonnet 杀疯了！

最终的成绩单出来了，Claude 3.5 Sonnet 直接断崖式领先，第二名的 o1-high 分数只有它的 60%，第三名 DeepSeek-R1 更是只有第二名的一半。这差距，简直让人怀疑人生！

当然，GPT-4o 也不甘示弱，它超过了推理模型 o3-mini-high，也算是一个小亮点。看来 OpenAI 内部的竞争也是相当激烈啊！

claude

AI 和人类博士 PK，谁更胜一筹？

除了 AI 之间的 PK，OpenAI 这次还请来了顶尖的机器学习博士，让他们和 o1 模型一较高下。结果表明，在复现顶会论文方面，AI 暂时还无法超越人类。不过，在工作时间 1-6 小时内，AI 的进度还是比人类要快的！

在 12-24 小时阶段，AI 和人类的进度基本相当。但是，人类需要工作 24-48 小时才能真正超越 AI。看来，AI 在快速上手方面还是有优势的，但人类在长时间的深入研究方面更胜一筹。

有创业者称赞 OpenAI 这次真的做到了 Open，而且毫不避讳竞争对手的优秀表现，这种开放的精神值得点赞！

openai

PaperBench 详细规则揭秘！

PaperBench 选择了 20 篇 ICML 2024 Spotlight 和 Oral 论文，要求 AI 创建代码库并执行实验，最终复制论文成果。而且，为了保证公平性，AI 不能使用原作者的代码。

ICML

OpenAI 还邀请了每篇论文的原作者共同制定详细的评分标准，总共包含了 8316 个可单独评分的任务。这简直就是一场开卷考试啊！不过，为了防止 AI 作弊，他们把原论文代码库和其他人复现的代码库都拉黑名单了。

整个评估流程分为三个阶段：

Agent 在 ubuntu 容器中创建并提交复制论文的代码库。
在具有 GPU 访问权限的新容器中执行代码。
裁判模型在第三个容器中给复现结果打分。

gpt

评分采用分级标准，按叶节点、父节点逐级评分，主要指标是所有论文的平均复制分数。

更厉害的是，评分也是由大模型自动执行的！实验发现，o3-mini 当裁判的性价比最高。而且，给每篇论文评分只花费 66 美元，比聘请人类专家当裁判要便宜得多，速度也更快。

目前，运行评估所需的代码和数据、Docker 镜像等正在 GitHub 上逐步开源，感兴趣的小伙伴可以去围观一下。

github

OpenAI 还公开了 Prompt！

更让人惊喜的是，OpenAI 还在论文的附录中公开了让 AI 复现顶会论文的 Prompt，这简直就是良心卖家啊！有需要的小伙伴赶紧学起来！

总结一下，Prompt 的核心要点包括：

明确智能体的最终目标是完整复制论文，并让运行 reproduce.sh 能够复现论文的所有指标。
指导智能体使用工具逐步完成任务，避免一次性执行过多操作。
要求智能体充分利用时间优化解决方案，而不是急于提交初步结果。

prompt

总的来说小编认为，OpenAI 这次推出的 PaperBench 不仅是一场 AI 智能体之间的实力较量，更是对 AI 领域的一次重要推动。通过这种方式，我们可以更清晰地了解 AI 的能力边界，并找到进一步提升 AI 智能体性能的方向。相信在未来，AI 将会在科研领域发挥越来越重要的作用！

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯