AI学霸大PK:PaperBench横空出世!
话说,OpenAI最近扔了个“重磅炸弹”——PaperBench!这玩意儿可不是让你在公园里长椅上打盹儿,而是一个专门用来考察AI代理学术能力的“考场”。考啥呢?考的是AI能不能从头到尾,完美复刻那些高大上的AI研究论文。
考试内容:复刻ICML顶会论文!
这次考试的题目,选的是20篇在ICML(国际机器学习会议)上“C位出道”的论文。这可不是让你读读论文、写写摘要就完事儿。得真正理解论文里的贡献,自己动手写代码,还要把论文里的实验给成功跑起来!这难度,堪比让AI参加高考啊!
公平公正:评分标准严苛!
为了保证考试的公平性,OpenAI的工程师们制定了超级详细的评分标准。他们把每一项复刻任务都拆解成N多个小任务,每个小任务都有明确的评分细则。据说,整个PaperBench包含了8316个可以单独评分的任务!更牛的是,这些评分标准还是和每篇论文的作者一起“磨”出来的,保证了评分的专业性和准确性。
AI阅卷:大规模自动评分系统!
这么多任务,人工评分得累死个人啊!所以,OpenAI还开发了一套基于大型语言模型(LLM)的自动评分系统。这个系统就像一个“AI阅卷老师”,能根据预设的评分标准,给AI代理的复刻成果打分。当然,为了保证“AI阅卷老师”的靠谱程度,他们还专门给这个系统搞了个“资格考试”。
考试结果:AI学霸还需努力!
经过一番激烈的角逐,Claude3.5Sonnet(新版本)算是考的比较好的,平均得分21.0%。但是,为了进一步验证结果,研究人员还邀请了一些机器学习博士生来参加考试。结果表明,目前的AI模型在复刻论文这方面,还是比不过人类学霸啊!看来AI还有很长的路要走。
开源共享:助力AI学术研究!
为了让更多的研究者参与到这个领域的研究中来,OpenAI决定把PaperBench的代码开源!这样,大家就可以利用这个平台,更深入地探索AI代理的工程能力,以及它们在复刻AI研究方面的潜力啦!