国产“数学王者”登场！DeepSeek-Math-V2 强势开源，性能直逼 GPT-4o-AITOP100,AI资讯

在人工智能领域，数学能力的比拼一直是衡量模型实力的重要维度。近期，国产 AI 领域传来一则重磅消息，犹如一颗投入平静湖面的巨石，激起层层涟漪——DeepSeek团队于 11 月 27 日在 Hugging Face 平台上传了拥有 236B 参数的“巨兽”级模型 DeepSeek-Math-V2，瞬间成为行业焦点。

项目地址： https://github.com/deepseek-ai/DeepSeek-Math-V2

创新架构，性能卓越

DeepSeek-Math-V2 采用了先进的 MoE（Mixture of Experts）架构，这种架构的精妙之处在于，虽然模型整体参数高达 236B，但活跃参数仅 21B。这不仅有效降低了计算资源的消耗，还提升了模型的运行效率。同时，该模型将上下文长度一口气拉到了 128K token，能够处理更长的文本信息，为复杂数学问题的解决提供了有力支持。

官方在发布当天同步放出了 Apache2.0 权重，商业限制为零。这一举措如同在开源社区投下了一颗“重磅炸弹”，当天就冲爆了服务器带宽，吸引了众多开发者和研究者的关注。

数学战绩斐然，比肩国际顶尖水平

在数学能力方面，DeepSeek-Math-V2 交出了一份令人惊艳的成绩单。在零样本 CoT（Chain of Thought，思维链）的测试中：

MATH 基准测试中，它取得了 75.7%的成绩，与 GPT-4o 的 76.6%几乎不相上下，展现出了强大的数学推理能力。
在 AIME2024 测试中，它成功解答了 4/30 题，这一成绩多于 Gemini1.5Pro 和 Claude-3-Opus，证明了其在复杂数学问题求解上的优势。
在 Math Odyssey 测试中，它以 53.7%的成绩跻身第一梯队，进一步巩固了其在数学领域的领先地位。

“自验证”双引擎，压制模型幻觉

DeepSeek-Math-V2 之所以能在数学领域取得如此优异的成绩，离不开其独特的“自验证”双引擎机制。该机制由 Generator（生成器）和 Verifier（验证器）组成。Generator 先生成草稿，就像学生先写出解题思路和步骤；Verifier 则逐行检查，对错误的部分打回重写。这一过程最多可进行 16 轮迭代，最后通过多数投票和元验证器来压制模型可能产生的幻觉，确保生成的答案准确可靠。

此外，该模型的训练语料规模庞大，达到了 1000 亿 token，涵盖了论文、竞赛题以及合成数据等多种类型。同时，还引入了 GRPO 强化学习来对齐人类偏好，使得模型更加符合人类的思维方式和需求。

编程能力同样出色，开源模型破局

得益于代码 - 数学混合语料的训练，DeepSeek-Math-V2 在编程端也展现出了强大的实力。在 HumanEval 测试中，它取得了 90.2%的成绩；在 MBPP 测试中，成绩为 76.2%；在 SWEBench 测试中，更是首次让开源模型突破了 10%的大关。这些成绩直接对标 GPT-4-Turbo 和 Claude3Opus，证明了其在编程领域的竞争力。