重磅！昆仑万维开源Skywork-SWE-32B软件工程智能体模型-AITOP100,AI资讯

在软件工程这片充满创新与挑战的领域，昆仑万维于6月20日迈出了重要一步——正式发布并开源其自主研发的代码智能体基座模型Skywork-SWE-32B。这一模型的诞生，犹如一颗投入平静湖面的巨石，在业界激起层层涟漪，尤其在32B参数规模下，它凭借卓越的代码修复能力，成为当之无愧的佼佼者。

昆仑万维开源Skywork-SWE-32B

为了确保Skywork-SWE-32B在软件工程任务中能够大放异彩，昆仑万维团队付出了巨大的努力。他们精心构建了超过1万个可验证的GitHub仓库任务实例，打造出目前规模最大的可验证数据集。这一举措意义非凡，它系统地验证了大模型在软件工程任务上的数据缩放定律，为后续模型的发展提供了坚实的理论基础。

在性能表现方面，Skywork-SWE-32B 更是交出了一份令人瞩目的答卷。在 SWE-bench Verified 基准测试中，它取得了 38.0% 的 pass@1 准确率，这一成绩成功刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。不仅如此，通过引入测试时扩展技术，该模型的表现更上一层楼，准确率提升至 47.0%。这一成绩不仅超越了当前 32B 参数规模以下的开源模型，还大幅缩小了与一些闭源模型之间的性能差距，展现出强大的竞争力。

在数据收集与验证方面，昆仑万维团队针对当前市场上 SWE 任务主流数据集存在的诸多问题，建立了一套严谨的三阶段自动化流程。

数据采集阶段：团队借助 GitHub API 抓取了超过 15 万个开源仓库的信息。然而，这仅仅是第一步，他们还通过一系列严格的筛选步骤，对抓取到的信息进行细致甄别，最终保留了 23,389 个任务样本，为后续工作奠定了良好的数据基础。
验证阶段：为了确保每个任务样本的有效性，团队采用了统一命令生成和 Docker 环境构建技术。这一过程犹如一场严格的“质量检测”，只有通过层层考验的任务样本才能进入下一阶段。最终，团队成功生成了 10,169 条高质量样本，为模型的训练提供了可靠的数据支持。
智能体轨迹生成阶段：团队使用开源的 OpenHands 框架，并结合商用大模型作为基座，对每个任务执行了多轮交互。在这个过程中，智能体的解决过程被全面记录下来，最终构建出 8,209 条高质量的验证通过轨迹。这些轨迹如同宝贵的“经验宝库”，为 Skywork-SWE-32B 的训练提供了丰富的素材。

昆仑万维开源Skywork-SWE-32B

Skywork-SWE-32B 的成功发布，为软件工程智能体的发展注入了新的活力。它不仅展现了在处理复杂开发场景下的强大能力与巨大潜力，也为软件工程领域的创新发展提供了新的思路和方向。相信在未来，随着技术的不断进步和完善，Skywork-SWE-32B 将在软件工程领域发挥更加重要的作用。

开源地址： https://huggingface.co/Skywork/Skywork-SWE-32B

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯