在人工智能领域,数学能力的比拼一直是衡量模型实力的重要维度。近期,国产 AI 领域传来一则重磅消息,犹如一颗投入平静湖面的巨石,激起层层涟漪——DeepSeek团队于 11 月 27 日在 Hugging Face 平台上传了拥有 236B 参数的“巨兽”级模型 DeepSeek-Math-V2,瞬间成为行业焦点。
项目地址: https://github.com/deepseek-ai/DeepSeek-Math-V2
创新架构,性能卓越
DeepSeek-Math-V2 采用了先进的 MoE(Mixture of Experts)架构,这种架构的精妙之处在于,虽然模型整体参数高达 236B,但活跃参数仅 21B。这不仅有效降低了计算资源的消耗,还提升了模型的运行效率。同时,该模型将上下文长度一口气拉到了 128K token,能够处理更长的文本信息,为复杂数学问题的解决提供了有力支持。
官方在发布当天同步放出了 Apache2.0 权重,商业限制为零。这一举措如同在开源社区投下了一颗“重磅炸弹”,当天就冲爆了服务器带宽,吸引了众多开发者和研究者的关注。
数学战绩斐然,比肩国际顶尖水平
在数学能力方面,DeepSeek-Math-V2 交出了一份令人惊艳的成绩单。在零样本 CoT(Chain of Thought,思维链)的测试中:
- MATH 基准测试中,它取得了 75.7%的成绩,与 GPT-4o 的 76.6%几乎不相上下,展现出了强大的数学推理能力。
- 在 AIME2024 测试中,它成功解答了 4/30 题,这一成绩多于 Gemini1.5Pro 和 Claude-3-Opus,证明了其在复杂数学问题求解上的优势。
- 在 Math Odyssey 测试中,它以 53.7%的成绩跻身第一梯队,进一步巩固了其在数学领域的领先地位。

“自验证”双引擎,压制模型幻觉
DeepSeek-Math-V2 之所以能在数学领域取得如此优异的成绩,离不开其独特的“自验证”双引擎机制。该机制由 Generator(生成器)和 Verifier(验证器)组成。Generator 先生成草稿,就像学生先写出解题思路和步骤;Verifier 则逐行检查,对错误的部分打回重写。这一过程最多可进行 16 轮迭代,最后通过多数投票和元验证器来压制模型可能产生的幻觉,确保生成的答案准确可靠。
此外,该模型的训练语料规模庞大,达到了 1000 亿 token,涵盖了论文、竞赛题以及合成数据等多种类型。同时,还引入了 GRPO 强化学习来对齐人类偏好,使得模型更加符合人类的思维方式和需求。
编程能力同样出色,开源模型破局
得益于代码 - 数学混合语料的训练,DeepSeek-Math-V2 在编程端也展现出了强大的实力。在 HumanEval 测试中,它取得了 90.2%的成绩;在 MBPP 测试中,成绩为 76.2%;在 SWEBench 测试中,更是首次让开源模型突破了 10%的大关。这些成绩直接对标 GPT-4-Turbo 和 Claude3Opus,证明了其在编程领域的竞争力。
开源共享,推动行业发展
目前,DeepSeek-Math-V2 已经上线 Hugging Face 平台,对于拥有 80GB 显存的用户来说,可以通过多卡推理的方式使用该模型。社区复现工作也正在火速进行中,众多开发者和研究者纷纷加入,共同探索该模型的更多可能性。
如果你想给 AI 装上一颗“数学金牌”大脑,现在只需一行 transformers 代码即可加载 DeepSeek-Math-V2。
国产开源模型的这一壮举,再次将闭源巨头的护城河缩小,为全球 AI 社区的发展注入了新的活力。
小编相信在未来,DeepSeek-Math-V2 将不断迭代升级,为人工智能领域带来更多的惊喜和突破。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









