AI行业的“DeepSeek时刻”
2022年末,ChatGPT的问世曾在AI领域掀起轩然大波,此后,行业内的每一次重大变革都被冠以“ChatGPT时刻”之名。
然而,到了2024年底,这一说法被改写,“DeepSeek时刻”的出现,标志着AI发展史上的一个新转折点。
2025年春节前夕,位于中国杭州的AI企业DeepSeek(深度求索)相继发布了V3(2024年12月26日)和R1(2025年1月20日)两款开源模型,引发广泛关注。
DeepSeek声称,V3在性能上已接近闭源模型OpenAI的GPT-4o和Anthropic的Claude-3.5-Sonnet,并优于开源模型Meta的Llama 3,而总训练成本仅为557.6万美元。推理模型R1的效果也逼近OpenAI o1,且API(应用程序编程接口)价格仅为OpenAI o1的3.7%。
这家成立于2023年7月17日的初创公司,手握万张英伟达芯片,以远低于海外AI巨头的成本,训练出了性能卓越的大模型。早在2024年5月发布V2模型后,DeepSeek便已率先打响中国大模型价格战,吸引了字节、阿里、百度等头部企业的目光,并在年底成功将价格战蔓延至海外。
DeepSeek的崛起一度导致全球算力概念股暴跌,叠加美股科技股的整体下行,英伟达股价下跌近17%,市值蒸发近6000亿美元,创下美股史上最大跌幅。OpenAI和谷歌也迅速上线最新模型,整个AI行业竞争白热化。
在DeepSeek爆火之后,硅谷巨头也纷纷采取行动。OpenAI表示已发现证据,表明DeepSeek存在“蒸馏”OpenAI模型的嫌疑。Anthropic创始人兼CEO Dario Amodei则发文否认R1所取得的突破,并呼吁加强对中国的算力出口管制。
本文将抛开表面的喧嚣,深入探讨DeepSeek是否被“高估”,以及它将对国内外AI产业带来怎样的影响。
DeepSeek的机遇与挑战
DeepSeek-R1发布后的二十多天里,收获了赞誉,也承受着巨大的压力。
AI行业从业者林志向「定焦One」总结了DeepSeek口碑的来源:1、完全免费使用。2、在与用户交互时展示思维过程,这有助于用户反向优化提问,提升对话体验。而OpenAI o1则未公开思考过程,可能担心竞争对手模仿训练。3、毫无保留地开源技术论文和模型,部分开源大模型通常会保留最佳版本自用。
然而,近期因热度涌入的用户发现,DeepSeek频繁宕机,难以正常使用,原因是公司服务器遭受了大规模DDoS恶意攻击。截至发稿,DeepSeek已恢复正常使用。
虽然上述特性为DeepSeek赢得了用户口碑,但它真正引人注目的是“掀桌子”的行为,让海外AI巨头倍感压力。
面对“DeepSeek是否具有创新性”的质疑,DeepSeek在其披露的V3和R1技术论文中给出了回应:1、V3模型采用多项自主研发技术进行架构创新,包括DeepSeekMoE+DeepSeekMLA架构、MTP多Token预测技术,从而降低了训练成本;2、R1模型放弃了传统RLHF(人类反馈强化学习)中的HF部分,直接通过纯强化学习(RL)进行训练,验证了RL的优先级和有效性,进一步优化了训练效率。
这意味着,DeepSeek证明了其能够以不到600万美元的训练成本,完成一个性能接近巨头模型的壮举。
但半导体市场分析和预测公司SemiAnalysis指出,557.6万美元主要指的是模型预训练的GPU成本,考虑到服务器资本支出、运营成本等因素,DeepSeek的总成本在四年内可能高达25.73亿美元。
值得注意的是,创新成本下降的趋势早已开始,DeepSeek只是加速了这一进程。方舟投资管理公司的创始人兼CEO“木头姐”指出,在DeepSeek之前,人工智能训练成本每年下降75%,推理成本甚至下降85%到90%。
英诺天使基金合伙人王晟也认为,年初发布与年底发布同一模型,成本可能大幅下降,甚至降至1/10。此外,OpenAI作为闭源模型,其对外披露的算力成本可能存在虚高,以保持利润空间,并强化资本市场“成本高昂”的印象,从而获得更高的投资。
但DeepSeek的可贵之处不仅在于“便宜”,更在于其“屠龙少年”的故事。
在ChatGPT问世和中国面临算力管制之前,DeepSeek已经拥有了上万张GPU储备。这与DeepSeek创始人梁文峰自2008年开始探索的量化交易有关。为了将深度学习模型应用于实盘交易,必须储备大量算力。2019年至2021年间,梁文峰的另一家公司幻方相继自主研发了“萤火一号”与“萤火二号”AI集群,囤积了大量芯片和技术人才。
幻方为梁文峰提供了算力、AI认知和模型工程化能力,而梁文峰则为DeepSeek带来了不以盈利为导向的AGI探索精神,以及开放的心态。有参与者透露,幻方曾以极低的价格向算法研究机构提供算力。
这种不可复制的故事赋予了DeepSeek全民性的热度。
DeepSeek的影响
DeepSeek的爆火引发了连锁反应,中美AI产业链上下游企业都受到了冲击。
首当其冲的是chatbot类(聊天机器人)AI应用。根据AI产品榜的数据,DeepSeek在2025年除夕前后,日活用户超过2000万,超越国内的豆包和Kimi,成为中国第一。同时,DeepSeek仅用一周时间用户破亿,而ChatGPT则用了两个月。
事实上,在DeepSeek发布R1的几乎同一天,月之暗面推出了Kimi k1.5思考模型,并在Kimi免费开放使用。豆包APP也更新了实时语音通话功能,面向所有用户开放,但两者的声量均被DeepSeek盖过,日活也受到影响。
林志认为,这表明用户对chatbot模式的忠诚度较低,一旦出现更强大、更便宜、更快的模型,用户便会迅速迁移。
从产品形态来看,豆包已接入多模态大模型,而DeepSeek目前仅有对话功能,且体验不稳定。虽然DeepSeek在除夕当天(1月28日)发布了开源文字生成图像(文生图)大模型Janus-Pro 7B,但尚未接入DeepSeek网页和APP中使用。
在杀手级应用出现之前,核心竞争力依然是大模型能力。因此,受到DeepSeek直接影响的第二批公司是自研大模型公司。
从投资人的角度来看,王晟指出,自从2024年5月DeepSeek发布V2模型打响中国大模型价格战以来,业内基本达成共识:国内巨头中,最好用的大模型是阿里的Qwen;豆包在2023年表现不佳,但在2024年下半年提升迅速;创业公司中,DeepSeek和月之暗面(Kimi)增长最快,其余五小龙(零一万物、MiniMax、百川智能、智谱AI、阶跃星辰)有的转型、有的放弃、有的背靠国资,但增长逐渐放缓。六小龙的格局基本瓦解。
这些闭源大模型公司面临与国外巨头类似的挑战:如何降低训练成本?是否有更高效的训练方式?以及是否要继续打API价格战?
至于DeepSeek是否会改变芯片市场格局,多位行业人士表示,算力之争不会消失,但目前正处于重估阶段。之前英伟达的热度过高,股价只是回归合理区间,但最终其价值仍会上升。随着模型应用场景的扩展,模型越“平权”,对算力的需求越大。
DeepSeek促使行业从盲目追求AGI上限,转向关注产业落地,以低成本提供高性能,从而促进产业链创新,利好AI原生应用和AI硬件发展。林志认为,“2025年将是AI商业化落地元年”。
同时,DeepSeek验证了国内AI产业从芯片到模型是可以实现部分国产替代的,提振了产业信心。春节期间,国内云服务厂商和GPU厂商纷纷部署DeepSeek。
然而,随着DeepSeek被推向“神坛”,其最大的冲击可能来自于自身的选择。
有消息称,阿里正计划以100亿美元的估值,投资10亿美元认购DeepSeek 10%的股权。这一估值已超过月之暗面(33亿美元)和智谱AI(20亿美元)。阿里方面否认了这一消息,也有人指出背靠幻方的DeepSeek一直未寻求融资。但市场仍然担心有其他战略方正在接触DeepSeek。
这或许是市场最不愿看到的结局。DeepSeek原本是一家自由的公司,梁文锋曾对媒体表示,其与大厂模型的最大区别在于,“大厂会与平台或生态捆绑,而我们是完全自由的”。如果DeepSeek接受战略投资,AI六小龙的故事可能会重演。
DeepSeek的新范式
从更宏观的角度来看,DeepSeek的崛起之所以受到海外巨头重视,在于其背后代表着两种不同的发展路径。
王晟解释说,AI产业在实现AGI方向上通常有两种路径选择:一是“算力军备”范式,即通过堆技术、堆资金、堆算力,先将大模型性能提升至高点,不断提高AGI能力上限,然后再考虑产业落地;二是“算法效率”范式,即从一开始就以产业落地为目标,通过架构创新和工程化能力,推出低成本高性能模型。
过去,大模型公司之间的竞争主要集中在“算力军备”范式。在这种范式下,OpenAI、Anthropic、谷歌,以及国内的AI六小龙等企业,都是重资本投入型企业。
由于需要大量资金,资本市场只能支持少数几家企业,AI巨头的市场集中度远高于其他行业。
DeepSeek-R1发布之际,美国总统特朗普宣布了一个总额达5000亿美元的AI基础设施项目“星际之门”,OpenAI、软银和甲骨文等都已承诺参与其中。稍早前,微软表示2025年将在AI基础设施上投入800亿美元,扎克伯格则计划为AI战略投资600多亿美元。
一个不容忽视的市场环境是,过去大家都在追求AGI能力的不断增长,只要模型性能提升足够快,竞争对手无论如何进行数据工程优化都难以赶超头部企业。但到2024年11月左右,“高质量文本训练数据即将被消耗殆尽”的论调敲响了行业警钟。如果数据供应停滞,模型训练也可能停滞,大家意识到之前粗放的训练模式可能存在瓶颈,即使投入更多算力、延长训练时间、增加数据量,能力增长也可能触及天花板。
在这一背景下,一些企业认为“算法效率”范式是当下可行的选择,DeepSeek率先将其付诸实践。王晟认为,“它的一系列模型证明了,在能力增长停滞的情况下,将重点放在优化效率而非能力增长上的范式同样可行。”
DeepSeek以“搅局者”的身份出现,美国AI巨头“砸钱做模型”的故事逐渐不再奏效。
DeepSeek以开源模型入场,被视为依靠生态力量挑战领先者,而领先者为了避免被搅局,通常会变得越来越封闭。
林志表示,“实际上,中美的主流路线已经完全颠倒了”。在阿里Qwen性能追赶上来之前,全球最主流的开源模型是Meta的Llama。在海外市场,Llama一度落后于OpenAI和Claude等闭源模型,但在国内,开源模型反而成为了大模型领域的主流。
然而,许多业内人士认为不应过度乐观,DeepSeek只是为2025年开了个好头,竞争仍在继续,差距依然存在。
近期,几大海外巨头也推出了新模型。2月1日,OpenAI发布了最新推理模型o3-mini系列,这是OpenAI首个向免费用户开放的推理模型。2月6日,谷歌宣布Gemini 2.0家族更新,其中Gemini 2.0 Flash-Lite版本被称为谷歌目前性价比最高的模型。
正如梁文锋自己所说,虽然具体技术方向一直在变,但模型、数据和算力的组合是不变的。数据工程也是至关重要的一环。OpenAI虽然面临侵权问题,但积累了自己的数据库。豆包受TikTok事件影响,也宣称自己不会进行数据蒸馏,“原生搭建的数据库”成为了大厂的护城河。
此外,王晟提到,根据Trade-off Curves(权衡曲线),DeepSeek选择的路径意味着其重点在于工程优化,因此很难在能力上限上取得突破。“它用现有方法继续迭代新版本,能力能提升多少?这是个问题。”
从学生时代起,梁文锋就展现出对AGI的热情和创新精神。DeepSeek此前只是避免了无效的尝试。但我们也不能否认另一种路径,即巨头们不惜代价,通过各种未知的尝试来拓宽AGI边界的努力。
DeepSeek搅动的这片汪洋,涟漪仍在继续扩大。
目前由于访问人数较多导致DeepSeek服务器超负荷,大家可以从另外2个渠道去使用,不会卡:
渠道一:硅基流动(SiliconFlow):AI人工智能云服务平台
DeepSeek官网下载: https://www.deepseek.com/