AI 圈炸锅!Claude 承认自己是老大了?
最近,OpenAI 搞了个大新闻,推出一个名为 PaperBench 的全新基准测试,专门用来测试 AI 智能体的综合实力。这个测试可不是闹着玩的,直接让这些 AI 智能体去复现顶级的 AI 学术会议 ICML 2024 的论文!这一下,各路 AI 大佬纷纷下场,一场精彩的 AI 智能体大战就此拉开帷幕!
结果让人大跌眼镜,Anthropic 的 Claude 3.5 Sonnet 横空出世,直接把 OpenAI 的 GPT-4o 给 PK 下去了,而且还不是小胜,是断崖式领先!OpenAI 官方都忍不住承认 Claude 确实厉害(虽然可能带着点酸溜溜的味道,手动狗头)。
PaperBench 到底是个啥?比之前的测试更难吗?
和 OpenAI 之前搞的 MLE-Bnch 相比,PaperBench 可不仅仅是考验 AI 的代码能力,而是要考察 AI 的综合实力。它不再是让 AI 执行单一任务,而是要让 AI 真正理解论文,然后编写代码,最后还要执行实验,整个流程下来,难度系数直接飙升!
简单来说,PaperBench 就是让 AI 智能体去复刻 ICML 2024 的论文成果,包括理解论文内容、编写实验代码、执行实验并验证结果。这可不是简单的体力活,需要 AI 有很强的理解能力、编程能力和实验能力。
战况如何?Claude 3.5 Sonnet 杀疯了!
最终的成绩单出来了,Claude 3.5 Sonnet 直接断崖式领先,第二名的 o1-high 分数只有它的 60%,第三名 DeepSeek-R1 更是只有第二名的一半。这差距,简直让人怀疑人生!
当然,GPT-4o 也不甘示弱,它超过了推理模型 o3-mini-high,也算是一个小亮点。看来 OpenAI 内部的竞争也是相当激烈啊!
AI 和人类博士 PK,谁更胜一筹?
除了 AI 之间的 PK,OpenAI 这次还请来了顶尖的机器学习博士,让他们和 o1 模型一较高下。结果表明,在复现顶会论文方面,AI 暂时还无法超越人类。不过,在工作时间 1-6 小时内,AI 的进度还是比人类要快的!
在 12-24 小时阶段,AI 和人类的进度基本相当。但是,人类需要工作 24-48 小时才能真正超越 AI。看来,AI 在快速上手方面还是有优势的,但人类在长时间的深入研究方面更胜一筹。
有创业者称赞 OpenAI 这次真的做到了 Open,而且毫不避讳竞争对手的优秀表现,这种开放的精神值得点赞!
PaperBench 详细规则揭秘!
PaperBench 选择了 20 篇 ICML 2024 Spotlight 和 Oral 论文,要求 AI 创建代码库并执行实验,最终复制论文成果。而且,为了保证公平性,AI 不能使用原作者的代码。
OpenAI 还邀请了每篇论文的原作者共同制定详细的评分标准,总共包含了 8316 个可单独评分的任务。这简直就是一场开卷考试啊!不过,为了防止 AI 作弊,他们把原论文代码库和其他人复现的代码库都拉黑名单了。
整个评估流程分为三个阶段:
- Agent 在 ubuntu 容器中创建并提交复制论文的代码库。
- 在具有 GPU 访问权限的新容器中执行代码。
- 裁判模型在第三个容器中给复现结果打分。
评分采用分级标准,按叶节点、父节点逐级评分,主要指标是所有论文的平均复制分数。
更厉害的是,评分也是由大模型自动执行的!实验发现,o3-mini 当裁判的性价比最高。而且,给每篇论文评分只花费 66 美元,比聘请人类专家当裁判要便宜得多,速度也更快。
目前,运行评估所需的代码和数据、Docker 镜像等正在 GitHub 上逐步开源,感兴趣的小伙伴可以去围观一下。
OpenAI 还公开了 Prompt!
更让人惊喜的是,OpenAI 还在论文的附录中公开了让 AI 复现顶会论文的 Prompt,这简直就是良心卖家啊!有需要的小伙伴赶紧学起来!
总结一下,Prompt 的核心要点包括:
- 明确智能体的最终目标是完整复制论文,并让运行 reproduce.sh 能够复现论文的所有指标。
- 指导智能体使用工具逐步完成任务,避免一次性执行过多操作。
- 要求智能体充分利用时间优化解决方案,而不是急于提交初步结果。
总的来说小编认为,OpenAI 这次推出的 PaperBench 不仅是一场 AI 智能体之间的实力较量,更是对 AI 领域的一次重要推动。通过这种方式,我们可以更清晰地了解 AI 的能力边界,并找到进一步提升 AI 智能体性能的方向。相信在未来,AI 将会在科研领域发挥越来越重要的作用!