DeepSeek:国产大模型的破局者
DeepSeek的出现,无疑给国内AI大模型领域带来了一股强劲的风。一夜之间,它似乎抢走了所有竞争对手的风头。
过去一年,无论是C端市场表现亮眼的Kimi,还是后来居上的豆包,亦或是用户日活突破2亿的文心一言,以及登顶全球开源榜首的通义千问,它们的影响力都难以与DeepSeek在全球科技圈引发的震动相提并论。
这并非意味着其他国产大模型不够优秀,而是DeepSeek的表现实在太过突出。
过去,国内科技巨头们一直在探讨与OpenAI的差距。但在DeepSeek身上,我们看到的是另一种景象:市场开始热议DeepSeek是否已经超越了OpenAI。其所代表的开源路线,甚至迫使OpenAI CEO山姆·奥尔特曼反思其开源策略:“我认为我们在开源问题上可能站在了历史的错误一边,需要重新思考。”
DeepSeek的崛起,不仅对AI行业产生了深远的影响,也在C端市场掀起了一场变革。
数据显示,DeepSeek上线仅20天,日活跃用户就突破了2000万,成为全球增长速度最快的AI应用。作为对比,ChatGPT达到1500万日活用了244天,而DeepSeek仅用了18天。20天后,DeepSeek的日活达到2215万,是ChatGPT的41.6%,远超豆包的1695万。
这是一场前所未有的AI风暴,与以往不同的是,它是由一家中国创业公司主导的。
那么,为什么是DeepSeek?
过去两年,国内主流互联网大厂都在大模型赛道上投入了大量资源,推出了不少产品,市场也寄予厚望,希望有企业能够尽快赶上OpenAI,与硅谷的AI巨头一较高下。
最终,DeepSeek实现了这一目标,大厂未能做到的,它反而做到了。
深耕积累:厚积薄发
DeepSeek的成功并非偶然,而是长期积累的结果。
尽管DeepSeek此次一鸣惊人,但其团队早在AI领域深耕多年,布局的时间甚至比大厂更早,布局的广度和深度也毫不逊色。
DeepSeek由知名私募巨头幻方量化孵化,创始人为梁文锋。
早在大学期间,即使在当时人工智能还只是一个理论概念,梁文锋就坚信“人工智能一定会改变世界”。
这也成为了他创业的终极愿景。
2015年,梁文锋创立幻方,这是国内最早使用人工智能进行量化交易的公司。2016年,第一份由深度学习生成的交易仓位上线执行;2017年,全面应用深度学习技术进行交易。
2018年,幻方官网将“把AI确定为公司的主要发展方向”写入公司大事。一年后,幻方干脆改变了组织架构,成立了幻方AI,对外定位为一家以大规模深度学习基础研究与应用为核心的人工智能公司。
2019年至2021年间,幻方相继自主研发了“萤火一号”和“萤火二号”AI集群,其中“萤火二号”投资高达10亿元,极大地提升了算力支持。同时,幻方也积极招募算法科学家。创始人梁文锋本人也坚持每天写代码、跑代码。
在技术和基础设施方面,DeepSeek一直在稳步积累。
或许很少有人预料到,当2023年ChatGPT问世时,市场发现,国内拥有高性能GPU芯片最多的不是人工智能公司,而是梁文锋旗下的幻方量化。
国盛证券研报显示,当时除了几家互联网公司(商汤、百度、腾讯、字节、阿里),只有幻方拥有超过1万张A100芯片储备。
这足以证明幻方对AI的投入丝毫不逊色于大厂。
反套路:创新驱动
以梁文锋为代表的DeepSeek创业团队也充满了锐气。
互联网大厂的AI战略往往依附于现有业务体系。腾讯的AI需要服务于社交和游戏生态,阿里的AI需要嵌入电商和云计算场景。这种业务协同逻辑虽然可以快速实现商业化,但也限制了技术演进的路径——投入越多,越倾向于优化现有模式,而非另辟蹊径。
而背靠幻方的DeepSeek,既有强大的财力支持,又有创业者敢于“从零开始”,不怕试错的勇气。这使得DeepSeek能够沿着创新的信念一路前行。
梁文锋对创新的态度非常坚决:“过去很多年,中国公司习惯于利用别人的技术创新来实现应用变现,但这不应该成为常态。在这一波浪潮中,我们的出发点不是趁机赚钱,而是走到技术前沿,推动整个生态的发展。”
“我们认为中国AI不可能永远处于跟随的位置。我们常说中国AI与美国有一两年的差距,但真正的差距在于原创和模仿。如果这一点不改变,中国永远只能是追随者,所以有些探索是不可避免的。”
而实现创新的方法,就是抛弃惯性思维,打破常规。
这最直接地体现在团队组成上。
国内大厂在进入大模型赛道时,通常倾向于从海外挖人,引进技术大牛,快速组建团队,然后迅速启动项目。而DeepSeek团队主要由国内顶尖高校的应届毕业生组成,不看重经验和资历,选人的标准是热爱和好奇心。
在工作机制上,“我们通常不预先分配任务,而是让团队成员自然分工。每个人都有独特的成长经历,都有自己的想法,不需要外部推动。在探索过程中,他们遇到问题会主动寻求帮助。当一个想法展现出潜力时,我们会自上而下地调配资源。”
“只要有想法,每个人都可以随时调用训练集群的资源,无需审批。由于不存在层级和跨部门限制,他们也可以灵活地与任何感兴趣的同事合作。”
换句话说,大厂的组织架构本质上是一台精密运转的“效率机器”。但颠覆性创新的诞生,需要的恰恰是反效率的“失控”。
而DeepSeek恰恰做到了这一点。
AI蓝媒汇就“为什么大厂没有做出DeepSeek”的问题向DeepSeek提问,DeepSeek表示,这本质上是组织惯性、商业化压力和技术路径共同作用的结果,并指出:
这场由开源模型引发的技术革命,正在倒逼大厂重新思考创新逻辑。如果无法跳出既有框架,其技术话语权或将进一步削弱。