昨晚,DeepSeek偷偷搞了个大动作,发布了它最新的大型语言模型DeepSeek-V3-0324,这消息在人工智能圈子里一下子就炸开了锅!这个容量高达641GB的大家伙,悄咪咪地出现在了AI模型库Hugging Face上,事先一点儿风声都没透,还是延续了他们家那低调但超有影响力的发布风格。
性能飙升,能和Claude Sonnet3.5掰手腕
DeepSeek-V3- 0324一发布就这么受关注,可不只是因为它功能强大,它的部署方式和许可协议也很牛。早期测试的人都说,新模型在各项指标上都有了质的飞跃。
AI研究员Xeophon在X平台上就说了,DeepSeek V3在他们内部测试的时候,“所有测试的所有指标都有了巨大飞跃”,还说它现在是“最好的非推理模型,把Sonnet3.5都给比下去了”。要是这说法能得到更广泛的认可,那DeepSeek的新模型可就超越Anthropic那备受尊敬的商业AI系统Claude Sonnet3.5啦!
开源商用,打破付费门槛
和需要订阅才能用的Sonnet不一样,DeepSeek - V3 - 0324的模型权重是完全免费的,谁都能下载来用。
更厉害的是,这模型用的是MIT许可证,这就意味着它能随便用于商业用途。这和西方那些AI公司把模型藏在付费墙后面的做法比起来,那可真是天壤之别。
MoE架构,两大突破让效率飞起
DeepSeek V3 - 0324那突破性的架构,效率简直无敌了。它用了混合专家(MoE)架构,这可把大型语言模型的运行方式给彻底改变了。传统模型做每个任务的时候,所有参数都得激活,可DeepSeek的办法是,在特定任务里只激活6850亿参数里的约370亿个。这种有选择地激活参数,让模型效率有了巨大提升,计算需求大大降低了,性能还能和更大的完全激活模型差不多。
而且啊,这模型还用了两项超厉害的技术:多头潜在注意力(MLA)和多令牌预测(MTP)。MLA让模型在长文本里保持上下文的能力更强了,MTP呢,能每步生成多个令牌,不像以前一次只能生成一个。这些创新一起发力,把输出速度提高了将近80%呢!
硬件友好,消费级设备也能玩
开发者工具创建者Simon Willison在一篇博客文章里说,一个4位量化版本把存储占用降到了352GB,这就让在高端消费级硬件(比如配了M3Ultra芯片的Mac Studio)上运行成为可能。
AI研究员Awni Hannun在社交媒体上写道:“新的DeepSeek - V3 - 0324在配了mlx - lm的512GB M3Ultra上以>20个tokens/秒的速度运行!”虽说9499美元的Mac Studio可能超出了“消费级硬件”的范围,但在本地能运行这么大的模型,和通常需要数据中心级AI基础设施的最新AI比起来,那可太不一样了。
Mac Studio在推理的时候功耗不到200瓦,而传统的AI基础设施一般得靠好几个消耗数千瓦功率的Nvidia GPU。
风格转变,更偏技术范儿
早期用的人说,新模型的沟通风格有了明显的变化。以前的DeepSeek模型因为对话式、类似人类的语调受到表扬,可“V3 - 0324”变得更正式、更注重技术了。
有些用户在Reddit上说了这种变化,觉得新版本听起来“不那么像人类”,没了以前版本“像人类一样的语调”。这种转变可能是DeepSeek工程师故意这么设计的,想把模型重新定位到更专业、更技术性的应用上。
DeepSeek的发布策略体现了中国和西方公司在AI商业理念上的根本差别。美国那些领头羊,像OpenAI和Anthropic,把模型藏在付费墙后面,可中国AI公司越来越倾向于用宽松的开源许可。
这种开放性正快速改变着中国的AI生态系统,让初创公司、研究人员和开发者能在先进的AI技术上搞创新,还不用花大量的钱。百度、阿里巴巴和腾讯这些中国科技巨头也都纷纷推出或者打算推出开源AI模型。在获取尖端Nvidia芯片受限的情况下,中国公司更重视效率和优化,这反而成了一种潜在的优势。
DeepSeek - V3 - 0324的发布也被认为是它下一代推理模型DeepSeek - R2的基础。
考虑到Nvidia首席执行官黄仁勋最近说DeepSeek的R1模型“比非推理AI消耗多100倍的计算量”,DeepSeek在资源有限的情况下还能取得这么好的性能,真是太牛了。
要是DeepSeek - R2能延续R1的发展轨迹,那说不定能对OpenAI传闻中即将发布的GPT - 5构成直接挑战。DeepSeek这种开放、资源高效的战略和OpenAI封闭、资金雄厚的战略,代表了人工智能未来的两种不同愿景。
现在,用户能在Hugging Face下载完整的模型权重,也能通过OpenRouter等平台体验DeepSeek - V3 - 0324的API接口。DeepSeek自己的聊天界面可能也更新到新版本了。DeepSeek的开放战略正在重新定义全球AI格局,预示着一个更开放、更普及的AI创新时代要来了。