AI界新星DeepCoder-14B-Preview炸场！代码能力杠杠滴，开源福利送到家！-AITOP100,AI资讯

最近啊，AI 这块儿又出了个新鲜玩意儿，叫 DeepCoder，这可是个编程小能手！它是两个公司一起鼓捣出来的，一个叫 Together AI，专门训练大模型，另一个叫 Agentica，搞智能体的。

你猜怎么着？这个 DeepCoder 才用了 140 亿个参数，就在编程测试里拿到了 60.6 分的高分！比 OpenAI 的 o1 模型（59.5 分）还高，只比 o3-mini（60.9 分）低了一丢丢。在 Codeforces 和 AIME2024 这些专业的编程评测里，它也表现得相当不错，跟 o1 和 o3-mini 有得一拼。

DeepCoder 可不只是个模型，它还把里里外外的东西都开源了，什么模型权重、训练数据、训练方法、训练日志，甚至连怎么优化的都告诉你！这可把那些搞开发的给乐坏了，这下能好好研究研究它的五脏六腑了。

这个 DeepCoder 是在 Deepseek-R1-Distilled-Qwen-14B 的基础上，用了一种叫“分布式强化学习”的方法来微调的。为了训练它，研究人员可是下了不少功夫，收集了 24000 个编程问题，还一个个地验证、测试、去重，确保每个问题都经得起考验。

在训练的时候，DeepCoder 用了两个“沙盒”来跑代码和算奖励。一个叫 Together Code Interpreter，又快又好，能同时跑好多沙盒；另一个是本地的，保证跟现有的排行榜结果一样。

DeepCoder 在设计奖励的时候也动了脑筋，它用的是一种“稀疏结果奖励”的方式，意思就是只奖励那些写出好代码的，不让它靠死记硬背蒙混过关。为了训练得更稳，它还用了一种改进版的 GRPO 算法，还引入了一个叫“迭代上下文扩展”的技术，这让它的推理能力蹭蹭往上涨。

为了让整个训练过程更快，DeepCoder 的团队还开源了一个叫 verl-pipeline 的东西，可以让训练、算奖励、采样这些步骤像流水线一样，一口气搞定，效率高了不少！

虽然 DeepCoder 刚刚开源，但网上已经有一大波人在夸它了，都说这是个很有前途的开源项目。Together AI 这家公司也挺厉害的，2022 年才成立，最近还融了 3.05 亿美元，看来以后还会搞出更多大动静。

小编认为，DeepCoder 就是一个很厉害的编程 AI，开源又透明，还比 OpenAI 的某些模型表现还好，以后搞编程的同学们可要多一个得力助手了！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集