• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

大模型圈又热闹了!DeepSeek和月之暗面再PK数学能力,谁能笑到最后?

大模型圈又热闹了!DeepSeek和月之暗面再PK数学能力,谁能笑到最后?
AI TOP100
2025-05-05 10:13:52

大模型圈的“华山论剑”:DeepSeek vs. 月之暗面

最近,大模型圈子里又炸开了锅,这次的主角还是DeepSeek和月之暗面这两家明星公司。继上次论文“撞车”事件后,他们又在数学定理证明这个领域狭路相逢,上演了一出精彩的“华山论剑”。 DeepSeek直接放大招,推出了全新的DeepSeek-Prover-V2模型,这可不是闹着玩的,参数规模直接飙升到6710亿!相比之前的V1.5版本,足足翻了近百倍。这“大力出奇迹”的效果也是杠杠的,在各种数学测试集上,效率和正确率都蹭蹭往上涨。比如,在miniF2F测试中,通过率达到了惊人的88.9%,还成功解决了普特南测试中的49道难题。 巧的是,就在DeepSeek放大招之前,月之暗面也推出了一个用于形式化定理证明的大模型Kimina-Prover。这是Kimi团队和Numina合作的成果,也开源了1.5B和7B参数的模型版本。不过,相比DeepSeek,Kimina-Prover在miniF2F测试中的通过率为80.7%,普特南测试的成绩为10道题,略逊一筹。

技术细节:都离不开强化学习

值得注意的是,DeepSeek和月之暗面在技术报告中都提到了强化学习。看来,大家都觉得强化学习是提升模型数学能力的关键。DeepSeek的报告题目是《DeepSeek-Prover-V2:通过子目标分解的强化学习推进形式数学推理》,而月之暗面的题目是《Kimina-Prover Preview:基于强化学习技术的大型形式推理模型》。 其实,早在2月份的两篇“撞车”论文中,这两家公司就都关注了Transformer架构的核心——注意力机制,都在研究如何让模型更好地处理长上下文。

明星创业公司的挑战:既要创新,也要抵挡巨头的“进攻”

作为国内大模型领域最受关注的创业者,梁文锋和杨植麟都面临着不小的挑战。 DeepSeek的R1模型发布已经三个多月了,外界对它的“魔法”似乎已经没有当初那么痴迷了。更重要的是,阿里的开源模型正在迅速追赶甚至超越DeepSeek,大家都期待着DeepSeek能尽快推出R2或V4模型,巩固自己的领先地位。 而对于杨植麟和月之暗面来说,Kimi正在遭受来自字节跳动的豆包和腾讯元宝的强力挑战,他们也需要不断创新,才能保持竞争力。

AGI的两种路径:编程与数学,还是多模态?

DeepSeek创始人梁文锋曾表示,他们押注了三个方向:数学和代码、多模态、自然语言本身。他认为,数学和代码是AGI天然的试验场,而多模态则需要参与到人类真实世界里学习。 这次Prover-V2模型的推出,也让DeepSeek的各个模型矩阵保持了同步进化。

DeepSeek的模型矩阵

* **Prover系列模型:** 2024年3月首次发布,2024年8月更新为V1.5,2025年4月更新至V2。 * **代码系列模型Coder:** 2024年4月开始更新,6月升级为Coder-V2-0614,7月再次升级,9月与DeepSeek-V2-Chat合并,升级为DeepSeek-V2.5,2024年12月更新至V3,今年3月升级至V3-0324。 * **通用推理大模型:** 以1月20日发布的R1模型为代表,价格低廉,自然语言推理性能强劲。 从Prover-V2的技术报告来看,它与DeepSeek的其他模型进化是有关联的。比如,DeepSeek-Prover-V2-671B就是以DeepSeek-V3作为基础模型来做微调的。 一位知乎用户认为,代码与数学模型可以检验推理大模型能力进展,因为结果是可验证的。 他还预测,R2模型可能更像是GPT-o1到o3的过程,研发周期可能较短。而V4则是一个大版本的更新,研发周期可能会更长。 现在,市场对DeepSeek的新模型充满了期待。 有传言说,R2模型将基于华为昇腾系列GPU芯片推出,但有业内人士表示,这种说法不太可靠。因为在英伟达H20芯片被限制之后,昇腾系列芯片也很难求,而且用于大模型研发,可能鲁棒性没那么强。

DeepSeek和Kimi还能保持领先吗?

DeepSeek和月之暗面这两家明星初创公司,正在面临着来自大公司的追赶和超越。 以月之暗面的Kimi为例,上线不到一年,在2024年11月,月活用户就突破了2000万,仅次于豆包。 但到了2025年2月底,AI原生APP月活用户规模前三名已经变成了DeepSeek、豆包、腾讯元宝。腾讯元宝通过微信引流和疯狂投流,迅速超越了Kimi。 目前,Kimi最新的举动是内测社区功能,希望增加用户粘性。 DeepSeek同样也面临着被大公司追赶的挑战。最近,阿里巴巴在大模型方面展现出了强劲的竞争力。 阿里发布的新一代通义千问模型Qwen3,参数量仅为DeepSeek-R1的1/3,但性能却全面超越了R1、OpenAI o1等产品。 阿里通义已经开源了200多个模型,全球下载量超过3亿次,成为全球第一开源模型。 一位AI创业者认为,DeepSeek受到了过多的关注,中国大模型产业需要更多优秀的模型,而不是只有一个。因此,应该鼓励这个领域的竞争和创业。 百度也在发力,发布了文心4.5 Turbo和深度思考模型X1 Turbo。李彦宏更是直接点名DeepSeek,说它只能处理单一的文本,还不能理解声音、图片、视频等多媒体内容,而且幻觉率比较高,很多场合不能放心使用。 李彦宏还表示,DeepSeek最大的问题是慢和贵,中国市场上绝大多数大模型API的价格都更低,而且反应速度更快。 尽管如此,百度还是决定学习DeepSeek,开源文心大模型4.5系列。 越来越多的玩家参与到大模型开源竞赛中,但只有技术最先进的玩家才能定义标准。最终,谁能笑到最后,让我们拭目以待!
0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek‌
  • Kimi ai
相关资讯
  • Wan2.5 Preview正式上线:AI生成电影级视频+“听懂”人话的多模态神器来了

  • 2025年9月24日重磅!阿里CEO吴泳铭揭秘:AI终极目标不是AGI,而是“超越人类”的超级智能路线图

  • 阿里夸克重磅推出AI创作平台“造点”:AI生图+视频生成全免费,Midjourney V7+通义万相Wan2.5双引擎加持

  • 可灵2.5 Turbo上线:性能飙升30%还降价,AI视频创作进入“白菜价”时代

  • 全球首个通用具身智能模型GO-1开源!智元机器人这波操作让行业“卷”起来了

热点资讯

字节跳动豆包翻译大模型上线:28种语言秒译,性能碾压GPT-4o,价格直接打“骨折”?

3天前
字节跳动豆包翻译大模型上线:28种语言秒译,性能碾压GPT-4o,价格直接打“骨折”?

阿里夸克重磅推出AI创作平台“造点”:AI生图+视频生成全免费,Midjourney V7+通义万相Wan2.5双引擎加持

1天前
阿里夸克重磅推出AI创作平台“造点”:AI生图+视频生成全免费,Midjourney V7+通义万相Wan2.5双引擎加持

Wan2.5 Preview正式上线:AI生成电影级视频+“听懂”人话的多模态神器来了

1天前
Wan2.5 Preview正式上线:AI生成电影级视频+“听懂”人话的多模态神器来了

OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

8天前
OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频

9天前
VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有