最近,法国的人工智能模型制造商Mistral可谓是搞了个大新闻,在之前因为闭源模型Medium3 被喷后,立马来了个华丽转身,重回开源阵营!这次他们联手开源新秀 All Hands AI (就是搞出 OpenDevin 的那家公司),推出了一个全新的开源语言模型——Devstral。
这个 Devstral 可不简单,虽然只有2400万参数,是个轻量级选手,但它是专门为 AI 代理软件开发设计的。厉害的是,在某些基准测试中,它的性能甚至超过了那些动辄几十亿参数的竞争对手,包括一些闭源的大佬!这简直就是小身材,大能量啊!
Devstral:不止是代码生成,更是AI开发好帮手
和那些只会代码补全或者生成独立函数的传统LLM不同,Devstral可是优化过的,能当一个完整的软件工程代理使。啥意思呢?就是说它能理解跨文件的上下文,还能在大型代码库里自由穿梭,帮你解决实际的软件开发问题。更赞的是,Devstral 基于宽松的 Apache2.0许可证发布,这意味着开发者和公司可以随便用、随便改、随便商用,简直不要太爽!
Mistral AI 的研究科学家 Baptiste Rozière 说了,他们就是想给开发者社区提供一个可以在本地私下运行,并且能根据需求修改的开源工具。Apache2.0 协议给了用户极大的自由度,想咋玩就咋玩!
Codestral 的升级版,更上一层楼
Devstral 可以说是 Mistral 以代码为中心的模型系列 Codestral 的最新升级版。Codestral 是在 2024 年 5 月首次亮相的,它有 220 亿参数,支持 80 多种编程语言,在代码生成和补全方面表现非常出色。Codestral 的快速迭代,催生了增强版 Codestral-Mamba 以及最新的 Codestral25.01,后者尤其受到 IDE 插件开发者和企业用户的喜爱。可以说,Codestral 系列的成功为 Devstral 的诞生奠定了坚实的基础,让它能从简单的代码补全扩展到完整的代理任务执行。
SWE 基准测试:成绩亮瞎眼!
在 SWE-Bench Verified 基准测试中,Devstral 取得了 46.8% 的好成绩。这个 SWE-Bench Verified 可不是闹着玩的,它包含了 500 个真实的 GitHub 问题,并且经过人工验证以确保其正确性。Devstral 的这个成绩,不仅领先于之前发布的所有开源模型,甚至超越了包括 GPT-4.1-mini 在内的多个闭源模型,领先幅度超过 20 个百分点!
Rozière 自豪地说,Devstral 是目前为止在 SWE-bench 验证和代码代理方面表现最好的开源模型,而且更令人惊讶的是,它只有 2400 万参数,甚至可以在 MacBook 上本地运行。Mistral AI 开发者关系主管 Sophia Yang 博士也在社交媒体上表示,Devstral 在各种框架下的评估中都优于许多闭源替代方案。
Devstral 的卓越性能得益于对 Mistral Small3.1 基础模型进行的强化学习和安全调整技术。Rozière 解释说,他们首先选择了一个强大的基础模型,然后利用专门的技术提升了其在 SWE-bench 上的表现。
AI软件开发代理的基石
Devstral 的目标可不仅仅是生成代码,更重要的是能够集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理框架中。有了这些框架,Devstral 就能与测试用例交互,导航源代码文件,以及跨项目执行多步骤任务。Rozière 透露,Devstral 将与 OpenDevin 一同发布,后者为代码代理提供了一个脚手架,充当开发者模型的后端。
为了确保模型的可靠性,Mistral 在不同的代码库和内部工作流程中对 Devstral 进行了严格的测试,以避免过度拟合 SWE-bench 基准。他们只使用来自非 SWE-bench 数据集的数据进行训练,并在不同的框架上验证了模型的性能。
部署简单,商业友好
Devstral 紧凑的 2400 万参数架构,使得开发者可以在本地轻松运行,无论是配备单个 RTX4090 GPU 的机器,还是拥有 32GB 内存的 Mac 电脑。这对于注重隐私保护和需要在边缘设备上部署的应用场景来说,简直是福音。Rozière 表示,该模型的目标用户包括热衷于本地和私有化操作的开发者和爱好者,他们甚至可以在没有互联网的环境中使用。
除了性能和可移植性之外,Devstral 的 Apache2.0 许可证也为商业应用提供了极大的便利。这个许可证允许无限制地使用、改编和分发,包括在专有产品中,这大大降低了企业采用的门槛。
Devstral 拥有 128,000 个 token 的上下文窗口,并使用包含 131,000 个词汇的铁拳分词器。它支持通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 等主流开源平台进行部署,并与 vLLM、Transformers 和 Mistral Inference 等库良好兼容。
API和本地部署,两条腿走路
开发者可以通过 Mistral 的 Le Platforme API 访问 Devstral,模型名称为 devstral-small-2505,定价为每百万输入 token 0.10 美元,每百万输出 token 0.30 美元。对于希望本地部署的用户来说,对 OpenHands 等框架的支持可以实现与代码库和代理工作流的即时集成。Rozière 分享了他自己如何使用 Devstral 来完成更新软件包版本或修改标记化脚本等小型开发任务,并对其在代码中精确定位和修改的能力表示赞赏。
虽然 Devstral 目前以研究预览版的形式发布,但 Mistral 和 All Hands AI 已经着手开发功能更强大、规模更大的后续模型。Rozière 认为,小型模型和大型模型之间的差距正在迅速缩小,而 Devstral 等模型的出色表现已经能够与一些规模更大的竞争对手相媲美。
总结
凭借其卓越的性能基准、宽松的开源许可和专为代理设计优化的特性,Devstral不仅是一款强大的代码生成工具,更将成为构建自主软件工程系统的关键基础模型。程序员们,赶紧用起来,解放双手,拥抱AI时代吧!