DeepSeek崛起：AI产业的新范式与挑战-AITOP100,AI资讯

AI行业的“DeepSeek时刻”

2022年末，ChatGPT的问世曾在AI领域掀起轩然大波，此后，行业内的每一次重大变革都被冠以“ChatGPT时刻”之名。

然而，到了2024年底，这一说法被改写，“DeepSeek时刻”的出现，标志着AI发展史上的一个新转折点。

2025年春节前夕，位于中国杭州的AI企业DeepSeek（深度求索）相继发布了V3（2024年12月26日）和R1（2025年1月20日）两款开源模型，引发广泛关注。

DeepSeek声称，V3在性能上已接近闭源模型OpenAI的GPT-4o和Anthropic的Claude-3.5-Sonnet，并优于开源模型Meta的Llama 3，而总训练成本仅为557.6万美元。推理模型R1的效果也逼近OpenAI o1，且API（应用程序编程接口）价格仅为OpenAI o1的3.7%。

这家成立于2023年7月17日的初创公司，手握万张英伟达芯片，以远低于海外AI巨头的成本，训练出了性能卓越的大模型。早在2024年5月发布V2模型后，DeepSeek便已率先打响中国大模型价格战，吸引了字节、阿里、百度等头部企业的目光，并在年底成功将价格战蔓延至海外。

DeepSeek的崛起一度导致全球算力概念股暴跌，叠加美股科技股的整体下行，英伟达股价下跌近17%，市值蒸发近6000亿美元，创下美股史上最大跌幅。OpenAI和谷歌也迅速上线最新模型，整个AI行业竞争白热化。

在DeepSeek爆火之后，硅谷巨头也纷纷采取行动。OpenAI表示已发现证据，表明DeepSeek存在“蒸馏”OpenAI模型的嫌疑。Anthropic创始人兼CEO Dario Amodei则发文否认R1所取得的突破，并呼吁加强对中国的算力出口管制。

本文将抛开表面的喧嚣，深入探讨DeepSeek是否被“高估”，以及它将对国内外AI产业带来怎样的影响。

DeepSeek的机遇与挑战

DeepSeek-R1发布后的二十多天里，收获了赞誉，也承受着巨大的压力。

AI行业从业者林志向「定焦One」总结了DeepSeek口碑的来源：1、完全免费使用。2、在与用户交互时展示思维过程，这有助于用户反向优化提问，提升对话体验。而OpenAI o1则未公开思考过程，可能担心竞争对手模仿训练。3、毫无保留地开源技术论文和模型，部分开源大模型通常会保留最佳版本自用。

然而，近期因热度涌入的用户发现，DeepSeek频繁宕机，难以正常使用，原因是公司服务器遭受了大规模DDoS恶意攻击。截至发稿，DeepSeek已恢复正常使用。

虽然上述特性为DeepSeek赢得了用户口碑，但它真正引人注目的是“掀桌子”的行为，让海外AI巨头倍感压力。

面对“DeepSeek是否具有创新性”的质疑，DeepSeek在其披露的V3和R1技术论文中给出了回应：1、V3模型采用多项自主研发技术进行架构创新，包括DeepSeekMoE+DeepSeekMLA架构、MTP多Token预测技术，从而降低了训练成本；2、R1模型放弃了传统RLHF（人类反馈强化学习）中的HF部分，直接通过纯强化学习（RL）进行训练，验证了RL的优先级和有效性，进一步优化了训练效率。

这意味着，DeepSeek证明了其能够以不到600万美元的训练成本，完成一个性能接近巨头模型的壮举。

但半导体市场分析和预测公司SemiAnalysis指出，557.6万美元主要指的是模型预训练的GPU成本，考虑到服务器资本支出、运营成本等因素，DeepSeek的总成本在四年内可能高达25.73亿美元。

值得注意的是，创新成本下降的趋势早已开始，DeepSeek只是加速了这一进程。方舟投资管理公司的创始人兼CEO“木头姐”指出，在DeepSeek之前，人工智能训练成本每年下降75%，推理成本甚至下降85%到90%。

英诺天使基金合伙人王晟也认为，年初发布与年底发布同一模型，成本可能大幅下降，甚至降至1/10。此外，OpenAI作为闭源模型，其对外披露的算力成本可能存在虚高，以保持利润空间，并强化资本市场“成本高昂”的印象，从而获得更高的投资。

但DeepSeek的可贵之处不仅在于“便宜”，更在于其“屠龙少年”的故事。

在ChatGPT问世和中国面临算力管制之前，DeepSeek已经拥有了上万张GPU储备。这与DeepSeek创始人梁文峰自2008年开始探索的量化交易有关。为了将深度学习模型应用于实盘交易，必须储备大量算力。2019年至2021年间，梁文峰的另一家公司幻方相继自主研发了“萤火一号”与“萤火二号”AI集群，囤积了大量芯片和技术人才。

幻方为梁文峰提供了算力、AI认知和模型工程化能力，而梁文峰则为DeepSeek带来了不以盈利为导向的AGI探索精神，以及开放的心态。有参与者透露，幻方曾以极低的价格向算法研究机构提供算力。

这种不可复制的故事赋予了DeepSeek全民性的热度。

DeepSeek的影响

DeepSeek的爆火引发了连锁反应，中美AI产业链上下游企业都受到了冲击。

首当其冲的是chatbot类（聊天机器人）AI应用。根据AI产品榜的数据，DeepSeek在2025年除夕前后，日活用户超过2000万，超越国内的豆包和Kimi，成为中国第一。同时，DeepSeek仅用一周时间用户破亿，而ChatGPT则用了两个月。

事实上，在DeepSeek发布R1的几乎同一天，月之暗面推出了Kimi k1.5思考模型，并在Kimi免费开放使用。豆包APP也更新了实时语音通话功能，面向所有用户开放，但两者的声量均被DeepSeek盖过，日活也受到影响。

林志认为，这表明用户对chatbot模式的忠诚度较低，一旦出现更强大、更便宜、更快的模型，用户便会迅速迁移。

从产品形态来看，豆包已接入多模态大模型，而DeepSeek目前仅有对话功能，且体验不稳定。虽然DeepSeek在除夕当天（1月28日）发布了开源文字生成图像（文生图）大模型Janus-Pro 7B，但尚未接入DeepSeek网页和APP中使用。

在杀手级应用出现之前，核心竞争力依然是大模型能力。因此，受到DeepSeek直接影响的第二批公司是自研大模型公司。

从投资人的角度来看，王晟指出，自从2024年5月DeepSeek发布V2模型打响中国大模型价格战以来，业内基本达成共识：国内巨头中，最好用的大模型是阿里的Qwen；豆包在2023年表现不佳，但在2024年下半年提升迅速；创业公司中，DeepSeek和月之暗面（Kimi）增长最快，其余五小龙（零一万物、MiniMax、百川智能、智谱AI、阶跃星辰）有的转型、有的放弃、有的背靠国资，但增长逐渐放缓。六小龙的格局基本瓦解。

这些闭源大模型公司面临与国外巨头类似的挑战：如何降低训练成本？是否有更高效的训练方式？以及是否要继续打API价格战？

至于DeepSeek是否会改变芯片市场格局，多位行业人士表示，算力之争不会消失，但目前正处于重估阶段。之前英伟达的热度过高，股价只是回归合理区间，但最终其价值仍会上升。随着模型应用场景的扩展，模型越“平权”，对算力的需求越大。

DeepSeek促使行业从盲目追求AGI上限，转向关注产业落地，以低成本提供高性能，从而促进产业链创新，利好AI原生应用和AI硬件发展。林志认为，“2025年将是AI商业化落地元年”。

同时，DeepSeek验证了国内AI产业从芯片到模型是可以实现部分国产替代的，提振了产业信心。春节期间，国内云服务厂商和GPU厂商纷纷部署DeepSeek。

然而，随着DeepSeek被推向“神坛”，其最大的冲击可能来自于自身的选择。

有消息称，阿里正计划以100亿美元的估值，投资10亿美元认购DeepSeek 10%的股权。这一估值已超过月之暗面（33亿美元）和智谱AI（20亿美元）。阿里方面否认了这一消息，也有人指出背靠幻方的DeepSeek一直未寻求融资。但市场仍然担心有其他战略方正在接触DeepSeek。

这或许是市场最不愿看到的结局。DeepSeek原本是一家自由的公司，梁文锋曾对媒体表示，其与大厂模型的最大区别在于，“大厂会与平台或生态捆绑，而我们是完全自由的”。如果DeepSeek接受战略投资，AI六小龙的故事可能会重演。

DeepSeek的新范式

从更宏观的角度来看，DeepSeek的崛起之所以受到海外巨头重视，在于其背后代表着两种不同的发展路径。

王晟解释说，AI产业在实现AGI方向上通常有两种路径选择：一是“算力军备”范式，即通过堆技术、堆资金、堆算力，先将大模型性能提升至高点，不断提高AGI能力上限，然后再考虑产业落地；二是“算法效率”范式，即从一开始就以产业落地为目标，通过架构创新和工程化能力，推出低成本高性能模型。

过去，大模型公司之间的竞争主要集中在“算力军备”范式。在这种范式下，OpenAI、Anthropic、谷歌，以及国内的AI六小龙等企业，都是重资本投入型企业。

由于需要大量资金，资本市场只能支持少数几家企业，AI巨头的市场集中度远高于其他行业。

DeepSeek-R1发布之际，美国总统特朗普宣布了一个总额达5000亿美元的AI基础设施项目“星际之门”，OpenAI、软银和甲骨文等都已承诺参与其中。稍早前，微软表示2025年将在AI基础设施上投入800亿美元，扎克伯格则计划为AI战略投资600多亿美元。

一个不容忽视的市场环境是，过去大家都在追求AGI能力的不断增长，只要模型性能提升足够快，竞争对手无论如何进行数据工程优化都难以赶超头部企业。但到2024年11月左右，“高质量文本训练数据即将被消耗殆尽”的论调敲响了行业警钟。如果数据供应停滞，模型训练也可能停滞，大家意识到之前粗放的训练模式可能存在瓶颈，即使投入更多算力、延长训练时间、增加数据量，能力增长也可能触及天花板。

在这一背景下，一些企业认为“算法效率”范式是当下可行的选择，DeepSeek率先将其付诸实践。王晟认为，“它的一系列模型证明了，在能力增长停滞的情况下，将重点放在优化效率而非能力增长上的范式同样可行。”

DeepSeek以“搅局者”的身份出现，美国AI巨头“砸钱做模型”的故事逐渐不再奏效。

DeepSeek以开源模型入场，被视为依靠生态力量挑战领先者，而领先者为了避免被搅局，通常会变得越来越封闭。

林志表示，“实际上，中美的主流路线已经完全颠倒了”。在阿里Qwen性能追赶上来之前，全球最主流的开源模型是Meta的Llama。在海外市场，Llama一度落后于OpenAI和Claude等闭源模型，但在国内，开源模型反而成为了大模型领域的主流。

然而，许多业内人士认为不应过度乐观，DeepSeek只是为2025年开了个好头，竞争仍在继续，差距依然存在。

近期，几大海外巨头也推出了新模型。2月1日，OpenAI发布了最新推理模型o3-mini系列，这是OpenAI首个向免费用户开放的推理模型。2月6日，谷歌宣布Gemini 2.0家族更新，其中Gemini 2.0 Flash-Lite版本被称为谷歌目前性价比最高的模型。

正如梁文锋自己所说，虽然具体技术方向一直在变，但模型、数据和算力的组合是不变的。数据工程也是至关重要的一环。OpenAI虽然面临侵权问题，但积累了自己的数据库。豆包受TikTok事件影响，也宣称自己不会进行数据蒸馏，“原生搭建的数据库”成为了大厂的护城河。

此外，王晟提到，根据Trade-off Curves（权衡曲线），DeepSeek选择的路径意味着其重点在于工程优化，因此很难在能力上限上取得突破。“它用现有方法继续迭代新版本，能力能提升多少？这是个问题。”

从学生时代起，梁文锋就展现出对AGI的热情和创新精神。DeepSeek此前只是避免了无效的尝试。但我们也不能否认另一种路径，即巨头们不惜代价，通过各种未知的尝试来拓宽AGI边界的努力。

DeepSeek搅动的这片汪洋，涟漪仍在继续扩大。

目前由于访问人数较多导致DeepSeek服务器超负荷，大家可以从另外2个渠道去使用，不会卡：

渠道一：硅基流动（SiliconFlow）：AI人工智能云服务平台

渠道二：超算互联网中心：高性能计算AI服务综合平台

DeepSeek官网下载： https://www.deepseek.com/

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集