• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

重磅!昆仑万维开源Skywork-SWE-32B软件工程智能体模型

重磅!昆仑万维开源Skywork-SWE-32B软件工程智能体模型
AI TOP100
4天前

在软件工程这片充满创新与挑战的领域,昆仑万维于6月20日迈出了重要一步——正式发布并开源其自主研发的代码智能体基座模型Skywork-SWE-32B。这一模型的诞生,犹如一颗投入平静湖面的巨石,在业界激起层层涟漪,尤其在32B参数规模下,它凭借卓越的代码修复能力,成为当之无愧的佼佼者。

昆仑万维开源Skywork-SWE-32B

为了确保Skywork-SWE-32B在软件工程任务中能够大放异彩,昆仑万维团队付出了巨大的努力。他们精心构建了超过1万个可验证的GitHub仓库任务实例,打造出目前规模最大的可验证数据集。这一举措意义非凡,它系统地验证了大模型在软件工程任务上的数据缩放定律,为后续模型的发展提供了坚实的理论基础。

在性能表现方面,Skywork-SWE-32B 更是交出了一份令人瞩目的答卷。在 SWE-bench Verified 基准测试中,它取得了 38.0% 的 pass@1 准确率,这一成绩成功刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。不仅如此,通过引入测试时扩展技术,该模型的表现更上一层楼,准确率提升至 47.0%。这一成绩不仅超越了当前 32B 参数规模以下的开源模型,还大幅缩小了与一些闭源模型之间的性能差距,展现出强大的竞争力。

在数据收集与验证方面,昆仑万维团队针对当前市场上 SWE 任务主流数据集存在的诸多问题,建立了一套严谨的三阶段自动化流程。

  • 数据采集阶段:团队借助 GitHub API 抓取了超过 15 万个开源仓库的信息。然而,这仅仅是第一步,他们还通过一系列严格的筛选步骤,对抓取到的信息进行细致甄别,最终保留了 23,389 个任务样本,为后续工作奠定了良好的数据基础。
  • 验证阶段:为了确保每个任务样本的有效性,团队采用了统一命令生成和 Docker 环境构建技术。这一过程犹如一场严格的“质量检测”,只有通过层层考验的任务样本才能进入下一阶段。最终,团队成功生成了 10,169 条高质量样本,为模型的训练提供了可靠的数据支持。
  • 智能体轨迹生成阶段:团队使用开源的 OpenHands 框架,并结合商用大模型作为基座,对每个任务执行了多轮交互。在这个过程中,智能体的解决过程被全面记录下来,最终构建出 8,209 条高质量的验证通过轨迹。这些轨迹如同宝贵的“经验宝库”,为 Skywork-SWE-32B 的训练提供了丰富的素材。

昆仑万维开源Skywork-SWE-32B

Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力。它不仅展现了在处理复杂开发场景下的强大能力与巨大潜力,也为软件工程领域的创新发展提供了新的思路和方向。相信在未来,随着技术的不断进步和完善,Skywork-SWE-32B 将在软件工程领域发挥更加重要的作用。

开源地址: https://huggingface.co/Skywork/Skywork-SWE-32B

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
相关AI工具
  • 天工AI大模型:昆仑万维AI大型语言模型
相关资讯
  • 2025NovaX国际创投嘉年华:链接创新与资本的年度盛会

  • 福田发布19款AI硬核产品,达成千万级订单,成果亮眼!

  • 讯飞星火医疗大模型V2.5国际版:医疗AI新突破,实力超乎想象!

  • 豆包推出可视化AI编程,让你通过拖拽就能快速开发网页应用,告别代码壁垒

  • AI小饿 – 饿了么为外卖骑手推出的智能AI助手

热点资讯

夸克App放大招!“夸克老师”上线,AI也能个性化辅导啦

7天前
夸克App放大招!“夸克老师”上线,AI也能个性化辅导啦

豆包AI全面升级解析:1.6大模型+视频生成+语音播客,字节跳动AI新突破

1天前
豆包AI全面升级解析:1.6大模型+视频生成+语音播客,字节跳动AI新突破

AI遇上Labubu:108万天价背后,潮玩界正迎来智能创作新纪元

6天前
AI遇上Labubu:108万天价背后,潮玩界正迎来智能创作新纪元

Cursor Pro计划大升级:告别请求限制,可以无限编码啦!

7天前
Cursor Pro计划大升级:告别请求限制,可以无限编码啦!

即梦灰测图片3.1模型:细节、风格与电影感的全面升级

1天前
即梦灰测图片3.1模型:细节、风格与电影感的全面升级
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有