家人们,科技圈又有大新闻啦!月之暗面(Moonshot AI)最近推出了全新的开源模型——Kimi-Dev-72B,这个模型一登场,就在软件工程领域掀起了一阵风暴,还在AI编程基准测试SWE-bench Verified中创下了全球最高的开源模型成绩,直接成了开源模型里的新标杆!
小参数大能量,超越“巨无霸”对手
Kimi-Dev-72B的设计参数只有72亿,可别小看这数字,它成功超越了刚发布不久的DeepSeek-R1,要知道DeepSeek-R1的参数量可是高达671亿呢!这就好比一个身材小巧的运动员,却能在赛场上打败身材魁梧的对手,实力不容小觑。
在SWE-bench Verified测试中,Kimi-Dev-72B拿到了60.4%的高分。这个测试可不简单,它就像一场严格的考试,只有所有测试用例都通过了,模型才能获得奖励。这就保证了Kimi-Dev-72B生成的解决方案既正确又稳健,完全符合现实开发的高标准。
开放下载,资源丰富等你来拿
现在,Kimi-Dev-72B已经在Hugging Face和GitHub平台上开放下载啦!用户可以轻松获取模型权重和源代码,技术报告也即将发布。要是你想体验一下这个厉害的模型,赶紧去这两个平台看看吧。
Hugging Face链接:huggingface.co/moonshotai/Kimi-Dev-72B
GitHub链接:github.com/MoonshotAI/Kimi-Dev
双重角色,工作流程简单高效
在设计理念上,Kimi-Dev-72B就像一个全能选手,结合了BugFixer和TestWriter的双重角色。BugFixer负责修复代码里的错误,就像一个细心的医生,把代码里的“毛病”一个个找出来并治好;TestWriter则编写相应的单元测试,确保代码的质量和稳定性。这两个部分相互配合,让模型在编程任务中更加有效。
Kimi-Dev-72B的工作流程也很简单明了,主要分为文件本地化和代码编辑两个阶段。就像盖房子一样,先打好地基(文件本地化),再进行装修(代码编辑),一步一步地把任务完成。
高质量数据训练,强化学习提升能力
为了增强模型的能力,月之暗面可是下了大功夫。他们使用了约1500亿个高质量数据进行中期训练,这些数据都来自GitHub的真实问题和PR提交。而且,他们还对数据进行了严格的净化,让模型能够学习到人类开发者是如何解决问题和编写代码的。
在强化学习阶段,重点提升模型的代码编辑能力。通过基于结果的奖励系统,就像给模型设立了一个个小目标,完成目标就能获得奖励,从而逐步优化模型的表现。
自我博弈,提升性能和效果
在测试环节,Kimi-Dev-72B能够协调BugFixer和TestWriter的角色,采用自我博弈机制。这就好比两个高手在对决,互相切磋,从而提升自己的实力。每个问题最多可以生成40个补丁候选和测试候选,显示了自博弈机制的强大效应。
未来发展,深度集成更便捷
未来,月之暗面计划进一步扩展Kimi-Dev-72B的功能,探索与流行开发工具的深度集成,让它能更无缝地融入开发者的工作流程。公司还承诺会持续改进这个模型,进行严谨的红队测试,以便向社区推出更强大的版本。
家人们,让我们一起期待Kimi-Dev-72B在未来能给我们带来更多的惊喜吧!