AI界大考：OpenAI推出PaperBench，看看谁能完美复刻顶会论文！-AITOP100,AI资讯

AI学霸大PK：PaperBench横空出世！

话说，OpenAI最近扔了个“重磅炸弹”——PaperBench！这玩意儿可不是让你在公园里长椅上打盹儿，而是一个专门用来考察AI代理学术能力的“考场”。考啥呢？考的是AI能不能从头到尾，完美复刻那些高大上的AI研究论文。

OpenAI，ChatGPT，人工智能，AI

这次考试的题目，选的是20篇在ICML（国际机器学习会议）上“C位出道”的论文。这可不是让你读读论文、写写摘要就完事儿。得真正理解论文里的贡献，自己动手写代码，还要把论文里的实验给成功跑起来！这难度，堪比让AI参加高考啊！

为了保证考试的公平性，OpenAI的工程师们制定了超级详细的评分标准。他们把每一项复刻任务都拆解成N多个小任务，每个小任务都有明确的评分细则。据说，整个PaperBench包含了8316个可以单独评分的任务！更牛的是，这些评分标准还是和每篇论文的作者一起“磨”出来的，保证了评分的专业性和准确性。

这么多任务，人工评分得累死个人啊！所以，OpenAI还开发了一套基于大型语言模型（LLM）的自动评分系统。这个系统就像一个“AI阅卷老师”，能根据预设的评分标准，给AI代理的复刻成果打分。当然，为了保证“AI阅卷老师”的靠谱程度，他们还专门给这个系统搞了个“资格考试”。

经过一番激烈的角逐，Claude3.5Sonnet（新版本）算是考的比较好的，平均得分21.0%。但是，为了进一步验证结果，研究人员还邀请了一些机器学习博士生来参加考试。结果表明，目前的AI模型在复刻论文这方面，还是比不过人类学霸啊！看来AI还有很长的路要走。

为了让更多的研究者参与到这个领域的研究中来，OpenAI决定把PaperBench的代码开源！这样，大家就可以利用这个平台，更深入地探索AI代理的工程能力，以及它们在复刻AI研究方面的潜力啦！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集