程序猿们,是不是每天都在和Bug战斗?好消息来了!
最近,字节跳动豆包大模型团队搞了个大事情,他们开源了一个叫Multi-SWE-bench的东西。这可不是个普通玩意儿,它是专门用来测试大模型“自动修Bug”能力的,而且还是多语言的!以后就能知道你的模型,除了会写Python,是不是也能搞定Java、C++了。
说实话,现在大模型发展太快了,代码生成能力也越来越重要。以前的SWE-bench虽然能测模型的编程能力,但只能测Python,太片面了!而且难度也不够,搞不定复杂的项目,限制了大模型的发展。
Multi-SWE-bench:不只是Python,七门语言全覆盖!
这次的Multi-SWE-bench就不一样了,它支持Java、TypeScript、C、C++、Go、Rust和JavaScript七种主流语言!总共有1632个真实的Bug修复任务,都是从开源项目里扒出来的,保证质量靠谱。更贴心的是,它还分了简单、中等、困难三个等级,能让你更清楚地知道模型在哪方面还不行。
实验结果也挺有意思,现在的大模型修Python的Bug还行,但换成其他语言,平均修复率竟然不到10%!看来多语言代码修复还是个大难题啊!
强化学习也能用上,还有开源社区等你来!
为了让强化学习也能用在自动编程上,他们还开源了Multi-SWE-RL,提供了4723个例子,还有配套的Docker环境,方便你一键启动、自动评估。简直是为RL训练量身定做!
更棒的是,他们还搞了个开源社区,欢迎各位开发者和研究者一起参与,扩展数据集、测试新方法,共同打造RL for Code的生态。以后大家一起修Bug,想想就刺激!
总结:自动编程的未来,等你来参与!
豆包大模型团队说了,他们希望Multi-SWE-bench能推动自动编程技术更上一层楼,以后还会继续扩大覆盖范围,帮助大模型在“自动化软件工程”领域取得更大的突破。所以,各位程序猿们,赶紧用起来,一起为自动编程的未来添砖加瓦吧!
想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集