DeepSeek V3 性能飞跃:挑战英伟达CUDA生态?
在经历DeepSeek-R1带来的市场震荡后,英伟达再次面临新的挑战。这次,焦点落在了DeepSeek-V3的技术细节上。硬件媒体Tom's Hardware报道指出,DeepSeek团队的优化策略非常激进,他们甚至绕开了CUDA,选择使用更底层的编程语言进行性能提升。
Mirae Asset Securities Research的分析显示,DeepSeek-V3的硬件效率之所以能达到Meta的10倍,关键在于他们对底层架构进行了“从头开始的重建”。在使用英伟达H800 GPU进行训练时,DeepSeek团队将132个流式多处理器(SMs)中的20个调整为负责服务器间的通信,而非计算,从而突破了硬件通信速度的限制。
这种优化是通过英伟达的PTX(Parallel Thread Execution)语言实现的,而非常用的CUDA。PTX 接近汇编语言,允许进行细粒度的优化,如寄存器分配和线程级调整,但编程难度高,难以维护。行业普遍使用CUDA等高级语言,以简化开发过程。
DeepSeek 的做法可谓是将优化做到了极致。有评论认为,只有前量化交易员才会为了性能如此深度优化。一位亚马逊工程师甚至提出疑问:CUDA是否还能继续作为英伟达的护城河?顶尖实验室或许已经具备有效利用任何GPU的能力。
甚至有声音开始畅想,如果DeepSeek开源一种CUDA替代方案,是否会改变行业格局?
DeepSeek 并非完全绕开 CUDA
需要明确的是,PTX 本身也是英伟达GPU架构的一部分,它是 CUDA 编程模型中的中间表示。PTX类似于汇编语言,是连接高级 CUDA 代码和底层硬件指令的桥梁。CUDA 代码首先被编译为 PTX,然后进一步编译为目标 GPU 架构的机器码。
CUDA提供了高级编程接口和工具链,简化开发流程,而 PTX 则作为中间层,保证了 CUDA 程序的跨架构兼容性。DeepSeek 直接编写 PTX 代码虽然能实现极致优化,但代码非常复杂,难以移植到不同型号的 GPU 上。
业内人士表示,为 H100 优化的代码在其他型号的 GPU 上可能会失效。因此,DeepSeek 的 PTX 优化虽然没有完全脱离 CUDA 生态,但确实展示了他们优化不同 GPU 硬件的能力。
目前,DeepSeek 已与 AMD、华为等团队合作,提供了对其他硬件生态的支持,表明了其在跨平台优化上的实力。
AI 辅助编写底层代码:未来趋势?
值得注意的是,有人提出,让 AI 擅长编写汇编语言可能是 AI 自我改进的一个方向。我们尚不清楚 DeepSeek 是否使用了 AI 辅助编写 PTX 代码。
但近期,DeepSeek-R1 编写的代码确实显著提升了大模型推理框架的运行速度。Llama.cpp 项目的一个新 PR 请求,使用 SIMD 指令优化了 WebAssembly 中的点积函数,提交者声称:“PR 中 99% 的代码由 DeepSeek-R1 编写,我只负责测试和编写提示。” 这证明大模型已经有能力编写良好的底层代码,甚至可以优化自身代码。
Llama.cpp 项目创始人对这段代码的评价是“比预期更爆炸”。这或许预示着,AI不仅能理解高级代码,还能深入底层,进行更精细的优化,从而推动整个行业的发展。