马斯克发布Grok3:xAI挑战AI霸主地位
备受瞩目的Grok3终于揭开神秘面纱!伊隆·马斯克领衔的xAI团队,一口气推出了包括基础模型、推理模型和智能体产品在内的Grok3,并预告了未来的语音模型。此次发布,xAI的目标直指追赶并超越现有领先的AI技术,希望在全球AI领域占据重要地位。
Grok3新品发布概览
目前,只有X平台Premium+会员可以体验Grok3测试版。由于订阅价格(每月40美元)和发布时间(当地晚间)等因素,X平台上尚未涌现大量用户分享的使用案例。
马斯克的前同事Andrej Karpathy(特斯拉自动驾驶早期负责人)有幸提前体验了Grok3。他表示,Grok3的整体能力与o1-pro(每月200美元)相当,优于DeepSeek-R1和Gemini 2.0 Flash Thinking。
关于Grok3的首个智能体产品“Deep Search”,Karpathy认为其功能类似于Perplexity的“Deep Research”,能够自主查阅网络资料并给出高质量的答案。但他也指出,Deep Search有时会出现编造信息或错误引用的情况,似乎尚未达到OpenAI最新发布的“Deep Research”的水平。
Andrej Karpathy分享Grok3使用体验
值得注意的是,Grok3的发布仅通过直播演示,缺乏官方博客和技术报告等更多信息。马斯克表示,模型每小时都在升级,一周后将带来更稳定、更强大的能力以及更多基准测试结果。
Grok3网站上线后,由于访问量过大,一度崩溃。这也反映了马斯克的强大号召力。
AI领域的竞争日趋激烈,马斯克似乎也因此加快了发布节奏。Grok3以及xAI的真正实力,仍需时间检验。
Grok3性能如何?首个十万级H100训练模型
在谷歌、Anthropic和OpenAI等巨头林立的AI市场,马斯克的xAI被认为是最有潜力与之抗衡的公司之一。其关键优势在于拥有由20万卡集群组成的Colossus——世界上最大的人工智能超级计算机,采用英伟达全栈参考设计,配备20万个英伟达Hopper GPU。
xAI的20万HopperGPU数据中心——Colossus
Grok3正是在Colossus集群上训练而成,1月初完成预训练,计算能力是Grok-2的10倍以上。
马斯克透露,Grok3仍在训练中,此次发布仅展示其在部分基准测试中的成绩。
Grok3在数学、科学、代码能力上全面领先
官方表示,Grok3不仅在“教科书背诵能力”方面表现出色,实际应用能力也堪称一流。在发布前两周,Grok3以“巧克力”为代号,在Imarena基准(原Lmsys基准)上进行了盲评,该基准被认为是更加客观的测试。
Imarena.ai发布基准测试结果
在Imarena基准测试中,Grok3达到了1400分,成为该榜单上首个超过1400分的基座模型。同时,Grok3在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等所有评测类别中均排名第一。
官方称Grok3仍在不断更新,每天、每小时都在改进。此外,Grok3还具备强大的推理能力,能够像人类一样思考、反思、验证,并从第一性原理出发进行思考。
他们表示,自1月初完成预训练模型以来,团队一直在努力通过强化学习进行推理训练,并已激发了更多能力。未来还将发布一个mini版本的推理模型。
Grok团队称Grok3展现出更强大的推理泛化能力
最后,团队展示了Grok3的第一代智能体,旨在帮助工程师、研究人员和科学家进行编码、回答研究问题,类似于下一代搜索引擎的“Deep Search”。
Grok3现场演示
Grok3未来展望:仍需时间检验
Grok3的发布并未给人“地球上最聪明的AI”的惊艳之感,整体感觉更像是与第一梯队玩家对齐。不少网友甚至直呼:“白瞎了20万张Hopper GPU”。
但现在下结论为时尚早。
整个行业在预训练方面的Scaling Law正在放缓,这主要是因为互联网数据已接近饱和。这意味着马斯克的20万卡集群和卓越的工程能力尚未完全发挥出来。
我们来简单计算一下。
从去年4月决定自建数据中心,到迅速拿到英伟达20万张Hopper卡,再到122天内搭建起10万卡集群,并在92天内扩展到20万卡集群,这展现了马斯克强大的执行力。英伟达CEO黄仁勋曾表示,模型大小每增加一倍,算力崩溃的概率就会增加一个数量级。马斯克团队在十万级卡上完成预训练的时间实际上也只有半年多。
另一方面,推理方面的Scaling Law在整个AI行业也才刚刚开始,而这部分更依赖于算力,无论是实验探索还是实际训练。
在最近举行的迪拜世界政府峰会上,马斯克表示,Grok3强大的推理能力背后,采用了创新的训练方法和大量合成数据,通过数据迭代实现逻辑一致性。如果发现错误数据,系统会反思并移除不符合现实的内容。然而,马斯克团队在发布会上并未提及这些创新。正如他所说,Grok3仍在继续训练,更好的版本将在下周发布。
AI竞争的白热化,似乎促使马斯克仓促推出了Grok3。或许他希望在谷歌、Anthropic、OpenAI等竞争对手更新下一代模型之前抢占先机,至少让大家看到Grok3正在追赶。然而,Grok3是否真正实现了突破,以及能否持续突破,还需要时间的检验。
不要忘记,马斯克是一位战略高手。一方面,他加紧修炼xAI;另一方面,他又放出“收购OpenAI”的消息,给竞争对手制造困扰。在AI这条道路上,我们很难预测马斯克最终会带来怎样的惊喜。
Grok-3 AI工具地址:【点击登录】








