最近啊,AI 这块儿又出了个新鲜玩意儿,叫 DeepCoder,这可是个编程小能手!它是两个公司一起鼓捣出来的,一个叫 Together AI,专门训练大模型,另一个叫 Agentica,搞智能体的。
你猜怎么着?这个 DeepCoder 才用了 140 亿个参数,就在编程测试里拿到了 60.6 分的高分!比 OpenAI 的 o1 模型(59.5 分)还高,只比 o3-mini(60.9 分)低了一丢丢。在 Codeforces 和 AIME2024 这些专业的编程评测里,它也表现得相当不错,跟 o1 和 o3-mini 有得一拼。
DeepCoder 可不只是个模型,它还把里里外外的东西都开源了,什么模型权重、训练数据、训练方法、训练日志,甚至连怎么优化的都告诉你!这可把那些搞开发的给乐坏了,这下能好好研究研究它的五脏六腑了。
这个 DeepCoder 是在 Deepseek-R1-Distilled-Qwen-14B 的基础上,用了一种叫“分布式强化学习”的方法来微调的。为了训练它,研究人员可是下了不少功夫,收集了 24000 个编程问题,还一个个地验证、测试、去重,确保每个问题都经得起考验。
在训练的时候,DeepCoder 用了两个“沙盒”来跑代码和算奖励。一个叫 Together Code Interpreter,又快又好,能同时跑好多沙盒;另一个是本地的,保证跟现有的排行榜结果一样。
DeepCoder 在设计奖励的时候也动了脑筋,它用的是一种“稀疏结果奖励”的方式,意思就是只奖励那些写出好代码的,不让它靠死记硬背蒙混过关。为了训练得更稳,它还用了一种改进版的 GRPO 算法,还引入了一个叫“迭代上下文扩展”的技术,这让它的推理能力蹭蹭往上涨。
为了让整个训练过程更快,DeepCoder 的团队还开源了一个叫 verl-pipeline 的东西,可以让训练、算奖励、采样这些步骤像流水线一样,一口气搞定,效率高了不少!
虽然 DeepCoder 刚刚开源,但网上已经有一大波人在夸它了,都说这是个很有前途的开源项目。Together AI 这家公司也挺厉害的,2022 年才成立,最近还融了 3.05 亿美元,看来以后还会搞出更多大动静。
小编认为,DeepCoder 就是一个很厉害的编程 AI,开源又透明,还比 OpenAI 的某些模型表现还好,以后搞编程的同学们可要多一个得力助手了!