xAI发布Grok-3:性能超越GPT-4o
智东西2月18日报道,马斯克口中“地球上最聪明的AI”——Grok-3终于亮相!该模型基于20万块GPU集群训练而成。
发布会上,伊隆·马斯克担任听众,两位华人研究员吴宇怀(Yuhuai “Tony” Wu)和Jimmy Ba成为焦点。吴宇怀曾就职于谷歌N2Formal研发小组,Jimmy Ba是图灵奖得主辛顿的学生,曾任Meta研究员。
Jimmy Ba(左二)、吴宇怀(左三)、伊隆·马斯克(最右)
xAI此次发布了Grok-3、Grok-3 mini两个推理模型,以及Grok-3 Reasoning、Grok-3 mini Reasoning和首个AI智能体DeepSearch。在基准测试中,Grok-3击败了Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。X平台Premium Plus订阅用户可在Grok应用程序和网页端体验推理、编程和DeepSearch搜索能力。
此外,xAI还推出单独的会员订阅计划SuperGrok,价格为每月30美元(约218人民币)或每年300美元(约2184人民币),解锁额外推理、DeepSearch查询和无限图像生成功能。
OpenAI联合创始人Andrej Karpathy评价Grok-3:“Grok-3+Thinking感觉与OpenAI最强大的模型o1-pro(每月200美元)相当,略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。”
卡帕西评价Grok-3截图(图源:X,谷歌翻译)
马斯克透露,最快一周后Grok将获得“语音模式”。几周后,xAI将在企业API中提供Grok-3模型与DeepSearch功能。几个月后,xAI将开源Grok-2。
直播最后,Grok用马斯克声音进行对话,作为彩蛋。
Grok-3现场演示:地球火星路径设计,本科生水平,两年内上火箭
现场演示中,Grok被要求设计地球与火星间的路径,并用动画呈现;以及设计类似俄罗斯方块的消消乐游戏。Grok在“思考”时出现卡顿,演示人员不得不切换话题。
随后,演示人员返回,展示了Grok的生成结果。
Grok在114秒内解决了地球火星路径问题。马斯克评价其解决方案基本正确,并表示Grok将在两年内接入SpaceX火箭。
在消消乐游戏设计中,Grok生成的代码可以直接运行。马斯克宣布xAI将成立游戏工作室,使用AI进行游戏开发。
Grok-3具备DeepSearch功能,能预测SpaceX下一次火箭发射时间,并提供思维链总结和完整思维链。其搜索范围广泛,涵盖X平台、百科网站和政府文件。
DeepSearch会考虑用户问题背后的意图、需求和目的,并交叉检验信息来源,以提供更准确的回答。
用户已发布100%由Grok-3生成的游戏,只需告知Grok需求,即可获得完整游戏代码。
研究人员发现,Grok已能解决复杂工程问题,节省大量时间,达到本科毕业生水平。17个月前,Grok还难以解决高中数学题。
20万GPU加持,性能超越o3-mini high、DeepSeek-R1
Grok-3训练量是Grok 2的10倍,依托于xAI在孟菲斯的AI超级计算机集群。该集群第一阶段在122天内建成10万块NVIDIA H100 GPU,第二阶段拓展到20万块GPU集群仅用92天。
基准测试显示,Grok-3在AIME、GPQA、LCB Oct-Feb中击败Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。
Grok-3早期版本在Chatbot Arena中获得1400分,排名第一。Chatbot Arena通过用户投票进行AI模型竞争。
xAI发布的Grok-3 Reasoning Beta在AIME 2025中达到93分,在GPQA上达到85分,超过o3-mini high和DeepSeek-R1。
用户可开启“Big Brain”模式,进行更仔细的推理,适用于数学、科学和代码问题。马斯克提到,他们隐藏了一些推理过程以防止蒸馏。
几个月后xAI将开源Grok-2。马斯克表示:“当Grok-3成熟稳定时,我们将开源Grok-2。”
xAI认为真正的AI需要具备反思、第一性原理检验等能力。Grok-3通过强化学习学会了这些能力,实现了训练和推理时的Scaling Law。
Grok-3的语音交互功能通过原生语音交互模型实现,无需语音转文字、文字转语音中间环节。
马斯克称,未来将加大数据中心建设力度,下一个计算集群将成为世界上最强大的集群,能耗达1.2GW。
基于合成数据训练,计划筹集约100亿美元资金
直播推迟18分钟开始,观看人数超过286万人次。马斯克在X上转发、点赞对Grok-3的赞美。
Grok-3发布前,马斯克让Grok模仿《指环王》“戒指之诗”创作工程师版诗歌。
Grok生成的诗歌最后还有对专有名词的注释。
Grok-3在合成数据上接受训练,并通过检查数据来反映错误,达到逻辑一致性。
xAI计划筹集约100亿美元资金,估值或达750亿美元。去年12月,xAI完成C轮融资,筹集60亿美元,总融资额达120亿美元。
结语:马斯克继续押注大算力AI
Grok 3在训练集群规模、用电量上都是领先的,转化为在基准测试上的SOTA表现。未来xAI可能继续押注大算力AI。
有网友评价,应考虑效率更高的进步,而不是规模更大、耗能更多的进步。
Grok-3 AI工具地址:【点击登录】