• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

重磅!昆仑万维开源Skywork-SWE-32B软件工程智能体模型

重磅!昆仑万维开源Skywork-SWE-32B软件工程智能体模型
AI TOP100
2025-06-20 16:51:50

在软件工程这片充满创新与挑战的领域,昆仑万维于6月20日迈出了重要一步——正式发布并开源其自主研发的代码智能体基座模型Skywork-SWE-32B。这一模型的诞生,犹如一颗投入平静湖面的巨石,在业界激起层层涟漪,尤其在32B参数规模下,它凭借卓越的代码修复能力,成为当之无愧的佼佼者。

昆仑万维开源Skywork-SWE-32B

为了确保Skywork-SWE-32B在软件工程任务中能够大放异彩,昆仑万维团队付出了巨大的努力。他们精心构建了超过1万个可验证的GitHub仓库任务实例,打造出目前规模最大的可验证数据集。这一举措意义非凡,它系统地验证了大模型在软件工程任务上的数据缩放定律,为后续模型的发展提供了坚实的理论基础。

在性能表现方面,Skywork-SWE-32B 更是交出了一份令人瞩目的答卷。在 SWE-bench Verified 基准测试中,它取得了 38.0% 的 pass@1 准确率,这一成绩成功刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。不仅如此,通过引入测试时扩展技术,该模型的表现更上一层楼,准确率提升至 47.0%。这一成绩不仅超越了当前 32B 参数规模以下的开源模型,还大幅缩小了与一些闭源模型之间的性能差距,展现出强大的竞争力。

在数据收集与验证方面,昆仑万维团队针对当前市场上 SWE 任务主流数据集存在的诸多问题,建立了一套严谨的三阶段自动化流程。

  • 数据采集阶段:团队借助 GitHub API 抓取了超过 15 万个开源仓库的信息。然而,这仅仅是第一步,他们还通过一系列严格的筛选步骤,对抓取到的信息进行细致甄别,最终保留了 23,389 个任务样本,为后续工作奠定了良好的数据基础。
  • 验证阶段:为了确保每个任务样本的有效性,团队采用了统一命令生成和 Docker 环境构建技术。这一过程犹如一场严格的“质量检测”,只有通过层层考验的任务样本才能进入下一阶段。最终,团队成功生成了 10,169 条高质量样本,为模型的训练提供了可靠的数据支持。
  • 智能体轨迹生成阶段:团队使用开源的 OpenHands 框架,并结合商用大模型作为基座,对每个任务执行了多轮交互。在这个过程中,智能体的解决过程被全面记录下来,最终构建出 8,209 条高质量的验证通过轨迹。这些轨迹如同宝贵的“经验宝库”,为 Skywork-SWE-32B 的训练提供了丰富的素材。

昆仑万维开源Skywork-SWE-32B

Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力。它不仅展现了在处理复杂开发场景下的强大能力与巨大潜力,也为软件工程领域的创新发展提供了新的思路和方向。相信在未来,随着技术的不断进步和完善,Skywork-SWE-32B 将在软件工程领域发挥更加重要的作用。

开源地址: https://huggingface.co/Skywork/Skywork-SWE-32B

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 天工AI大模型
相关资讯
  • 实测:我让AI点了杯咖啡,还叫了车!全球首个手机通用Agent-AutoGLM 2.0到底多聪明?

  • 技术硬核!快手自研Klear-Reasoner模型登顶,数学推理准确率突破90%大关

  • 《黑神话·钟馗》预告片震撼发布,AI视频制作技术如何重塑游戏宣传新时代

  • DeepSeek V3.1:128K上下文只是"配菜",V3+R1模型融合才是重点!

  • DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

热点资讯

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

1天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

1天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

1天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

字节跳动Seedance Pro上线Higgsfield:无限免费生成,30多种电影级预设

8天前
字节跳动Seedance Pro上线Higgsfield:无限免费生成,30多种电影级预设

B站测试AI视频工具花生AI:3分钟成片,创作者迎来“傻瓜式”神器

7天前
B站测试AI视频工具花生AI:3分钟成片,创作者迎来“傻瓜式”神器
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有