大模型圈又热闹了！DeepSeek和月之暗面再PK数学能力，谁能笑到最后？-AITOP100,AI资讯

大模型圈的“华山论剑”：DeepSeek vs. 月之暗面

最近，大模型圈子里又炸开了锅，这次的主角还是DeepSeek和月之暗面这两家明星公司。继上次论文“撞车”事件后，他们又在数学定理证明这个领域狭路相逢，上演了一出精彩的“华山论剑”。 DeepSeek直接放大招，推出了全新的DeepSeek-Prover-V2模型，这可不是闹着玩的，参数规模直接飙升到6710亿！相比之前的V1.5版本，足足翻了近百倍。这“大力出奇迹”的效果也是杠杠的，在各种数学测试集上，效率和正确率都蹭蹭往上涨。比如，在miniF2F测试中，通过率达到了惊人的88.9%，还成功解决了普特南测试中的49道难题。巧的是，就在DeepSeek放大招之前，月之暗面也推出了一个用于形式化定理证明的大模型Kimina-Prover。这是Kimi团队和Numina合作的成果，也开源了1.5B和7B参数的模型版本。不过，相比DeepSeek，Kimina-Prover在miniF2F测试中的通过率为80.7%，普特南测试的成绩为10道题，略逊一筹。

技术细节：都离不开强化学习

值得注意的是，DeepSeek和月之暗面在技术报告中都提到了强化学习。看来，大家都觉得强化学习是提升模型数学能力的关键。DeepSeek的报告题目是《DeepSeek-Prover-V2：通过子目标分解的强化学习推进形式数学推理》，而月之暗面的题目是《Kimina-Prover Preview：基于强化学习技术的大型形式推理模型》。其实，早在2月份的两篇“撞车”论文中，这两家公司就都关注了Transformer架构的核心——注意力机制，都在研究如何让模型更好地处理长上下文。

明星创业公司的挑战：既要创新，也要抵挡巨头的“进攻”

作为国内大模型领域最受关注的创业者，梁文锋和杨植麟都面临着不小的挑战。 DeepSeek的R1模型发布已经三个多月了，外界对它的“魔法”似乎已经没有当初那么痴迷了。更重要的是，阿里的开源模型正在迅速追赶甚至超越DeepSeek，大家都期待着DeepSeek能尽快推出R2或V4模型，巩固自己的领先地位。而对于杨植麟和月之暗面来说，Kimi正在遭受来自字节跳动的豆包和腾讯元宝的强力挑战，他们也需要不断创新，才能保持竞争力。

AGI的两种路径：编程与数学，还是多模态？

DeepSeek创始人梁文锋曾表示，他们押注了三个方向：数学和代码、多模态、自然语言本身。他认为，数学和代码是AGI天然的试验场，而多模态则需要参与到人类真实世界里学习。这次Prover-V2模型的推出，也让DeepSeek的各个模型矩阵保持了同步进化。

DeepSeek的模型矩阵

* **Prover系列模型：** 2024年3月首次发布，2024年8月更新为V1.5，2025年4月更新至V2。 * **代码系列模型Coder：** 2024年4月开始更新，6月升级为Coder-V2-0614，7月再次升级，9月与DeepSeek-V2-Chat合并，升级为DeepSeek-V2.5，2024年12月更新至V3，今年3月升级至V3-0324。 * **通用推理大模型：** 以1月20日发布的R1模型为代表，价格低廉，自然语言推理性能强劲。从Prover-V2的技术报告来看，它与DeepSeek的其他模型进化是有关联的。比如，DeepSeek-Prover-V2-671B就是以DeepSeek-V3作为基础模型来做微调的。一位知乎用户认为，代码与数学模型可以检验推理大模型能力进展，因为结果是可验证的。他还预测，R2模型可能更像是GPT-o1到o3的过程，研发周期可能较短。而V4则是一个大版本的更新，研发周期可能会更长。现在，市场对DeepSeek的新模型充满了期待。有传言说，R2模型将基于华为昇腾系列GPU芯片推出，但有业内人士表示，这种说法不太可靠。因为在英伟达H20芯片被限制之后，昇腾系列芯片也很难求，而且用于大模型研发，可能鲁棒性没那么强。

DeepSeek和Kimi还能保持领先吗？

DeepSeek和月之暗面这两家明星初创公司，正在面临着来自大公司的追赶和超越。以月之暗面的Kimi为例，上线不到一年，在2024年11月，月活用户就突破了2000万，仅次于豆包。但到了2025年2月底，AI原生APP月活用户规模前三名已经变成了DeepSeek、豆包、腾讯元宝。腾讯元宝通过微信引流和疯狂投流，迅速超越了Kimi。目前，Kimi最新的举动是内测社区功能，希望增加用户粘性。 DeepSeek同样也面临着被大公司追赶的挑战。最近，阿里巴巴在大模型方面展现出了强劲的竞争力。阿里发布的新一代通义千问模型Qwen3，参数量仅为DeepSeek-R1的1/3，但性能却全面超越了R1、OpenAI o1等产品。阿里通义已经开源了200多个模型，全球下载量超过3亿次，成为全球第一开源模型。一位AI创业者认为，DeepSeek受到了过多的关注，中国大模型产业需要更多优秀的模型，而不是只有一个。因此，应该鼓励这个领域的竞争和创业。百度也在发力，发布了文心4.5 Turbo和深度思考模型X1 Turbo。李彦宏更是直接点名DeepSeek，说它只能处理单一的文本，还不能理解声音、图片、视频等多媒体内容，而且幻觉率比较高，很多场合不能放心使用。李彦宏还表示，DeepSeek最大的问题是慢和贵，中国市场上绝大多数大模型API的价格都更低，而且反应速度更快。尽管如此，百度还是决定学习DeepSeek，开源文心大模型4.5系列。越来越多的玩家参与到大模型开源竞赛中，但只有技术最先进的玩家才能定义标准。最终，谁能笑到最后，让我们拭目以待！