• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

AI 智能体大 PK:Claude 3.5 Sonnet 怒刷 PaperBench,顶会论文复现实力碾压 GPT-4o!

AI 智能体大 PK:Claude 3.5 Sonnet 怒刷 PaperBench,顶会论文复现实力碾压 GPT-4o!
AI TOP100
2025-04-05 16:30:26

AI 圈炸锅!Claude 承认自己是老大了?

最近,OpenAI 搞了个大新闻,推出一个名为 PaperBench 的全新基准测试,专门用来测试 AI 智能体的综合实力。这个测试可不是闹着玩的,直接让这些 AI 智能体去复现顶级的 AI 学术会议 ICML 2024 的论文!这一下,各路 AI 大佬纷纷下场,一场精彩的 AI 智能体大战就此拉开帷幕!

结果让人大跌眼镜,Anthropic 的 Claude 3.5 Sonnet 横空出世,直接把 OpenAI 的 GPT-4o 给 PK 下去了,而且还不是小胜,是断崖式领先!OpenAI 官方都忍不住承认 Claude 确实厉害(虽然可能带着点酸溜溜的味道,手动狗头)。

openai


PaperBench 到底是个啥?比之前的测试更难吗?

和 OpenAI 之前搞的 MLE-Bnch 相比,PaperBench 可不仅仅是考验 AI 的代码能力,而是要考察 AI 的综合实力。它不再是让 AI 执行单一任务,而是要让 AI 真正理解论文,然后编写代码,最后还要执行实验,整个流程下来,难度系数直接飙升!

简单来说,PaperBench 就是让 AI 智能体去复刻 ICML 2024 的论文成果,包括理解论文内容、编写实验代码、执行实验并验证结果。这可不是简单的体力活,需要 AI 有很强的理解能力、编程能力和实验能力。

paper bench

战况如何?Claude 3.5 Sonnet 杀疯了!

最终的成绩单出来了,Claude 3.5 Sonnet 直接断崖式领先,第二名的 o1-high 分数只有它的 60%,第三名 DeepSeek-R1 更是只有第二名的一半。这差距,简直让人怀疑人生!

当然,GPT-4o 也不甘示弱,它超过了推理模型 o3-mini-high,也算是一个小亮点。看来 OpenAI 内部的竞争也是相当激烈啊!

claude

AI 和人类博士 PK,谁更胜一筹?

除了 AI 之间的 PK,OpenAI 这次还请来了顶尖的机器学习博士,让他们和 o1 模型一较高下。结果表明,在复现顶会论文方面,AI 暂时还无法超越人类。不过,在工作时间 1-6 小时内,AI 的进度还是比人类要快的!

在 12-24 小时阶段,AI 和人类的进度基本相当。但是,人类需要工作 24-48 小时才能真正超越 AI。看来,AI 在快速上手方面还是有优势的,但人类在长时间的深入研究方面更胜一筹。

ai

有创业者称赞 OpenAI 这次真的做到了 Open,而且毫不避讳竞争对手的优秀表现,这种开放的精神值得点赞!

openai

PaperBench 详细规则揭秘!

PaperBench 选择了 20 篇 ICML 2024 Spotlight 和 Oral 论文,要求 AI 创建代码库并执行实验,最终复制论文成果。而且,为了保证公平性,AI 不能使用原作者的代码。

ICML

OpenAI 还邀请了每篇论文的原作者共同制定详细的评分标准,总共包含了 8316 个可单独评分的任务。这简直就是一场开卷考试啊!不过,为了防止 AI 作弊,他们把原论文代码库和其他人复现的代码库都拉黑名单了。

整个评估流程分为三个阶段:

  • Agent 在 ubuntu 容器中创建并提交复制论文的代码库。
  • 在具有 GPU 访问权限的新容器中执行代码。
  • 裁判模型在第三个容器中给复现结果打分。

gpt

评分采用分级标准,按叶节点、父节点逐级评分,主要指标是所有论文的平均复制分数。

ai

更厉害的是,评分也是由大模型自动执行的!实验发现,o3-mini 当裁判的性价比最高。而且,给每篇论文评分只花费 66 美元,比聘请人类专家当裁判要便宜得多,速度也更快。

o3

目前,运行评估所需的代码和数据、Docker 镜像等正在 GitHub 上逐步开源,感兴趣的小伙伴可以去围观一下。

github

OpenAI 还公开了 Prompt!

更让人惊喜的是,OpenAI 还在论文的附录中公开了让 AI 复现顶会论文的 Prompt,这简直就是良心卖家啊!有需要的小伙伴赶紧学起来!

总结一下,Prompt 的核心要点包括:

  • 明确智能体的最终目标是完整复制论文,并让运行 reproduce.sh 能够复现论文的所有指标。
  • 指导智能体使用工具逐步完成任务,避免一次性执行过多操作。
  • 要求智能体充分利用时间优化解决方案,而不是急于提交初步结果。

prompt

prompt

ai

ai

总的来说小编认为,OpenAI 这次推出的 PaperBench 不仅是一场 AI 智能体之间的实力较量,更是对 AI 领域的一次重要推动。通过这种方式,我们可以更清晰地了解 AI 的能力边界,并找到进一步提升 AI 智能体性能的方向。相信在未来,AI 将会在科研领域发挥越来越重要的作用!

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
相关AI工具
  • Claude:AI人工智能助手
相关资讯
  • 谷歌Veo3重磅升级:静态图片秒变生动视频,AI创作再进化

  • Genspark AI全球通话功能正式上线:打破语言壁垒,连接全球沟通

  • Grok 4重磅发布:马斯克"重写人类知识库"的AI革命新征程

  • Hugging Face再放大招!SmolLM3小参数模型强势来袭

  • 阿里通义发布ThinkSound:揭秘首款支持链式推理的开源音频生成模型

热点资讯

语音AI大突破!TEN Agent开源两模型,延迟低到飞起

8天前
语音AI大突破!TEN Agent开源两模型,延迟低到飞起

夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

1天前
夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

通义千问Qwen-TTS语音合成模型大升级:新增三大中文方言,语音体验更丰富!

8天前
通义千问Qwen-TTS语音合成模型大升级:新增三大中文方言,语音体验更丰富!

AIGC大赛:2025新疆文旅AIGC宣传片创作大赛全球征片中

12小时前
AIGC大赛:2025新疆文旅AIGC宣传片创作大赛全球征片中

星流AI最新升级:Lovart国内版上线,AI设计智能体全面评测

6天前
星流AI最新升级:Lovart国内版上线,AI设计智能体全面评测
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有