• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作热门-AI社区
AI 对话

OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified

OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified
AI TOP100
2024-08-14 09:33:34

OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified8月14日凌晨OpenAI在社交媒体“X”平台上宣布推出了一款新工具,叫做SWE-bench Verified。这个工具是之前一个叫做SWE-bench的工具的升级版,专门用来测试AI在解决实际编程问题上的能力。这个新版本经过了人工审核,确保里面的任务和测试都是合理且清晰的。

openai官网SWE-bench Verified下载SWE-bench的任务是让AI去修复从GitHub上找到的代码问题。这就像是一个编程挑战,AI需要修改代码,同时保证新加入的和原有的功能都能正常工作,不出错。之前版本的SWE-bench存在一些问题,比如测试太复杂、问题描述不清楚、设置起来困难,这些都可能导致对AI能力的误判。但是,经过与原作者合作,我们现在有了这个升级版,里面包含了500个经过专业人士仔细挑选和审核的样本。

这些专业人士检查了问题的描述和测试的合理性,并用0到3的等级来评估问题的严重性。这个审核过程很严格,每个样本都经过了多次检查,以确保万无一失。新版的SWE-bench Verified显示,AI模型的表现有所提升,比如一个叫做GPT-4o的模型,在解决这些问题上的表现比之前好了很多。

这个新工具可以帮助我们更好地了解AI在不同难度任务上的表现,尤其是在比较简单的问题上,AI的表现有了显著的提高。SWE-bench Verified符合OpenAI的标准,它能更准确地评估AI在中等风险水平下的编程能力。随着AI技术的进步,不断改进这样的测试工具非常重要。

现在,SWE-bench Verified已经可以下载了,还包括了所有的审核笔记和评分标准,这样大家都可以更清楚地看到AI的表现,也有助于进一步的研究。

OpenAi的SWE-bench Verified下载地址:【点击下载】

想了解更多AI行业资讯信息请关注AITOP100平台AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • ChatGPT
相关资讯
  • OpenAI官方终于说了:GPT-5.5提示词越简单越好,别再给冗长指令了

  • 全球最火开源Agent框架"换脑":OpenClaw接入DeepSeek V4Flash成默认模型

  • OpenAI推出Workspace Agents(工作空间智能体):云端24小时运行的"虚拟员工"

  • 炸裂更新!ChatGPT Images 2.0正式上线,AI画图彻底迎来质变时代

  • 腾讯QClaw海外版上线:国内10天百万用户,这次5天就"出海"了

热点资讯

Uidea首届AI创作大赛|主题:AI=“爱”

3天前
Uidea首届AI创作大赛|主题:AI=“爱”

2026重庆国际动画电影周“金山茶”荣誉推荐活动征集:动画盛宴,全球邀约!

3天前
2026重庆国际动画电影周“金山茶”荣誉推荐活动征集:动画盛宴,全球邀约!

2026年4月下旬7场重磅AI大赛汇总,总奖金475.56万,附报名入口

3天前
2026年4月下旬7场重磅AI大赛汇总,总奖金475.56万,附报名入口

腾讯混元Hy3 preview来了:2950亿参数开源,姚顺雨近四个月后交出首份答卷

3天前
腾讯混元Hy3 preview来了:2950亿参数开源,姚顺雨近四个月后交出首份答卷

剧火AI伙剧计划:算力我买单好剧你来拍

3天前
剧火AI伙剧计划:算力我买单好剧你来拍
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有