在软件工程这片充满创新与挑战的领域,昆仑万维于6月20日迈出了重要一步——正式发布并开源其自主研发的代码智能体基座模型Skywork-SWE-32B。这一模型的诞生,犹如一颗投入平静湖面的巨石,在业界激起层层涟漪,尤其在32B参数规模下,它凭借卓越的代码修复能力,成为当之无愧的佼佼者。
为了确保Skywork-SWE-32B在软件工程任务中能够大放异彩,昆仑万维团队付出了巨大的努力。他们精心构建了超过1万个可验证的GitHub仓库任务实例,打造出目前规模最大的可验证数据集。这一举措意义非凡,它系统地验证了大模型在软件工程任务上的数据缩放定律,为后续模型的发展提供了坚实的理论基础。
在性能表现方面,Skywork-SWE-32B 更是交出了一份令人瞩目的答卷。在 SWE-bench Verified 基准测试中,它取得了 38.0% 的 pass@1 准确率,这一成绩成功刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。不仅如此,通过引入测试时扩展技术,该模型的表现更上一层楼,准确率提升至 47.0%。这一成绩不仅超越了当前 32B 参数规模以下的开源模型,还大幅缩小了与一些闭源模型之间的性能差距,展现出强大的竞争力。
在数据收集与验证方面,昆仑万维团队针对当前市场上 SWE 任务主流数据集存在的诸多问题,建立了一套严谨的三阶段自动化流程。
- 数据采集阶段:团队借助 GitHub API 抓取了超过 15 万个开源仓库的信息。然而,这仅仅是第一步,他们还通过一系列严格的筛选步骤,对抓取到的信息进行细致甄别,最终保留了 23,389 个任务样本,为后续工作奠定了良好的数据基础。
- 验证阶段:为了确保每个任务样本的有效性,团队采用了统一命令生成和 Docker 环境构建技术。这一过程犹如一场严格的“质量检测”,只有通过层层考验的任务样本才能进入下一阶段。最终,团队成功生成了 10,169 条高质量样本,为模型的训练提供了可靠的数据支持。
- 智能体轨迹生成阶段:团队使用开源的 OpenHands 框架,并结合商用大模型作为基座,对每个任务执行了多轮交互。在这个过程中,智能体的解决过程被全面记录下来,最终构建出 8,209 条高质量的验证通过轨迹。这些轨迹如同宝贵的“经验宝库”,为 Skywork-SWE-32B 的训练提供了丰富的素材。
Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力。它不仅展现了在处理复杂开发场景下的强大能力与巨大潜力,也为软件工程领域的创新发展提供了新的思路和方向。相信在未来,随着技术的不断进步和完善,Skywork-SWE-32B 将在软件工程领域发挥更加重要的作用。