DeepSeek R1 冲击波:英伟达市值蒸发,AI 竞争白热化
DeepSeek 的崛起,正给 AI 产业带来前所未有的冲击。这股压力,最终传递到了英伟达身上。1月27日晚,英伟达美股盘前股价暴跌近11%,市值可能蒸发超过3500亿美元。DeepSeek 以其低成本的大模型训练策略,引发了资本市场对于高端算力芯片泡沫的担忧,人们开始质疑,当使用较少算力就能达到甚至超越 OpenAI 模型性能时,英伟达的价值是否被高估了?
这一担忧直接推动了 DeepSeek 的热度。借助 R1 新模型的发布,短短一周内,DeepSeek 应用就登顶了美区和中国区 App Store 免费榜,成为了首个超越 OpenAI ChatGPT 登顶美区 App Store 的 AI 助手类产品。
用户体验的火爆,导致 DeepSeek 服务连续两天宕机。虽然官方回应称可能与服务维护和请求限制有关,但这无疑揭示了 DeepSeek 的巨大吸引力。
DeepSeek R1 作为这场讨论的直接导火索,其性能被认为可以与 OpenAI o1 完整版相媲美。在模型规模定律触达瓶颈的背景下,DeepSeek 率先攻破了 OpenAI 的技术壁垒,并以开源和免费的方式向全球用户开放,打破了行业由科技巨头主导开源模型的传统认知。
DeepSeek R1 的出现,还打破了去年业内认为通用大模型是资本比拼的共识。DeepSeek 用不到 OpenAI 十分之一的资源,就做出了性能比肩 o1 的模型,其带来的冲击已经让 Meta 等大厂感到不安。
Meta 内部传出消息称,担心即将发布的 Llama 4 在性能上无法赶上 DeepSeek R1。而 OpenAI 也感受到了压力,CEO 奥特曼不仅推出了智能体 Operator 抢占热度,还开始透露即将上线的 o3-mini 的消息。可以预见的是,DeepSeek 引发的行业地震将不只影响国外公司,国内大厂也难逃波及。
DeepSeek R1:打破常规的训练方法
DeepSeek R1 在数学、代码、自然语言推理等任务上的性能,号称可以与 OpenAI o1 正式版媲美。在 AIME 2024 数学基准测试中,DeepSeek R1 得分率为 79.8%,OpenAI o1 为 79.2%;在 MATH-500 基准测试中,DeepSeek R1 得分率为 97.3%,OpenAI o1 为 96.4%。
DeepSeek R1 的技术关键在于其创新的训练方法,例如使用了 R1-Zero 路线,直接将强化学习应用于基础模型,无需依赖监督微调和已标注数据。相比之下,OpenAI 的数据训练非常依赖人工干预。DeepSeek R1 的直接强化学习路线,更像让一个天才儿童通过不断尝试和反馈来学习解题。
此外,DeepSeek 在获取高质量数据方面也有创新。它使用数据蒸馏技术生成高质量数据,提升了训练效率。数据蒸馏能够将原始的、复杂的数据进行去噪、降维、提炼,得到更精炼、有用的数据。这使得 DeepSeek 能够用更小的参数量,实现比肩 OpenAI o1 的性能。
人工智能专家丁磊博士认为,模型参数量大小与最终模型效果并非线性关系,数据质量至关重要。更重要的是,DeepSeek 在使用不到十分之一资源的基础上,取得了上述成绩。DeepSeek-V3 开源基础模型的训练成本仅为 557.6 万美元,而 GPT-4o 的训练成本约为 1 亿美元。DeepSeek R1 的 API 运行成本约为 OpenAI o1 的 30 分之一。
Scale AI 创始人亚历山大·王认为,DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。a16z 合伙人 Anjney Midha 表示,DeepSeek R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。包括吴恩达、萨提亚·纳德拉等大佬也都开始关注这款来自中国的新模型。
DeepSeek 的崛起:创业公司的机会
DeepSeek 的崛起,再次证明了创业公司在大模型领域的机会。年初,李开复宣布退出对 AGI 的追寻,转向中小参数的行业模型,认为只有大公司才能继续做超大模型。投资人朱啸虎认为,大模型正在摧毁创业,因为模型、算力和数据等三大支柱都向大厂集中。
但 DeepSeek 的创始人梁文锋认为,大厂虽有优势,但如果不能很快应用,也不一定能持续坚持。DeepSeek 背靠量化基金,不考虑商业变现,大胆启用年轻人,这使得它能够抢在大厂前面推出 R1 模型。在 DeepSeek 的团队中,大多是 Top 高校的应届毕业生、实习生以及刚毕业的年轻人。
DeepSeek 成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司。目前,DeepSeek R1 已经成为开源社区 Hugging Face 上下载量最高的大模型之一。Meta AI 首席科学家杨立昆认为,“开源模型正在超越专有模型。”DeepSeek 强调技术生态的重要性,并表示未来不会像 OpenAI 一样从开源走向闭源。
DeepSeek 的开源策略,无疑为国内外大模型玩家在对标 o1 的推理模型研发方面提供了新的借鉴思路。
DeepSeek 的蝴蝶效应:大厂的焦虑
DeepSeek 在大模型领域掀起的蝴蝶效应,已经影响到部分大厂。Meta 内部员工表示,Meta 的生成式 AI 部门正因 DeepSeek 而感到恐慌。Meta 团队正在分析 DeepSeek 的训练和运行成本、数据来源,并考虑基于 DeepSeek 模型的属性重组 Meta 模型的新技术。扎克伯格也宣布 Meta 将在 2025 年继续扩大 AI 投资,建立拥有 130 万块 GPU 的超级计算机集群。
DeepSeek 正在从 OpenAI 手里抢走客户。一些初创公司正因其低廉的价格和出色的性能而改用 DeepSeek。企业级 AI 代理开发商 SuperFocus 就可能在未来几周转向 DeepSeek,因为它能降低成本,提高利润率。DeepSeek 的定位是成为更多公司的模型底座。梁文锋认为,DeepSeek 未来可以只负责基础模型和前沿创新,其他公司可以在 DeepSeek 的基础上构建 To B、To C 的业务。
国内,字节跳动、阿里通义以及智谱、Kimi 等团队,都在积极研究 DeepSeek,甚至有消息称,字节跳动可能在考虑与其展开研究合作。雷军更是挖走了 DeepSeek-V2 开源模型的关键开发者罗福莉,未来罗福莉将供职于小米 AI 实验室。DeepSeek 的出现,可能让国内大模型公司面临更激烈的竞争。如果它们不能快速将模型效果跟进到 R1 级别,客户就难免流失。
DeepSeek ai工具地址:【点击登录】