DeepSeek V3 另辟蹊径：PTX优化挑战英伟达CUDA，AI或将自我优化底层代码-AITOP100,AI资讯

DeepSeek V3 性能飞跃：挑战英伟达CUDA生态？

在经历DeepSeek-R1带来的市场震荡后，英伟达再次面临新的挑战。这次，焦点落在了DeepSeek-V3的技术细节上。硬件媒体Tom's Hardware报道指出，DeepSeek团队的优化策略非常激进，他们甚至绕开了CUDA，选择使用更底层的编程语言进行性能提升。

DeepSeek下载地址》》》

Mirae Asset Securities Research的分析显示，DeepSeek-V3的硬件效率之所以能达到Meta的10倍，关键在于他们对底层架构进行了“从头开始的重建”。在使用英伟达H800 GPU进行训练时，DeepSeek团队将132个流式多处理器（SMs）中的20个调整为负责服务器间的通信，而非计算，从而突破了硬件通信速度的限制。

这种优化是通过英伟达的PTX（Parallel Thread Execution）语言实现的，而非常用的CUDA。PTX 接近汇编语言，允许进行细粒度的优化，如寄存器分配和线程级调整，但编程难度高，难以维护。行业普遍使用CUDA等高级语言，以简化开发过程。

DeepSeek 的做法可谓是将优化做到了极致。有评论认为，只有前量化交易员才会为了性能如此深度优化。一位亚马逊工程师甚至提出疑问：CUDA是否还能继续作为英伟达的护城河？顶尖实验室或许已经具备有效利用任何GPU的能力。

甚至有声音开始畅想，如果DeepSeek开源一种CUDA替代方案，是否会改变行业格局？

DeepSeek 并非完全绕开 CUDA

需要明确的是，PTX 本身也是英伟达GPU架构的一部分，它是 CUDA 编程模型中的中间表示。PTX类似于汇编语言，是连接高级 CUDA 代码和底层硬件指令的桥梁。CUDA 代码首先被编译为 PTX，然后进一步编译为目标 GPU 架构的机器码。

CUDA提供了高级编程接口和工具链，简化开发流程，而 PTX 则作为中间层，保证了 CUDA 程序的跨架构兼容性。DeepSeek 直接编写 PTX 代码虽然能实现极致优化，但代码非常复杂，难以移植到不同型号的 GPU 上。

业内人士表示，为 H100 优化的代码在其他型号的 GPU 上可能会失效。因此，DeepSeek 的 PTX 优化虽然没有完全脱离 CUDA 生态，但确实展示了他们优化不同 GPU 硬件的能力。

目前，DeepSeek 已与 AMD、华为等团队合作，提供了对其他硬件生态的支持，表明了其在跨平台优化上的实力。

AI 辅助编写底层代码：未来趋势？

值得注意的是，有人提出，让 AI 擅长编写汇编语言可能是 AI 自我改进的一个方向。我们尚不清楚 DeepSeek 是否使用了 AI 辅助编写 PTX 代码。

但近期，DeepSeek-R1 编写的代码确实显著提升了大模型推理框架的运行速度。Llama.cpp 项目的一个新 PR 请求，使用 SIMD 指令优化了 WebAssembly 中的点积函数，提交者声称：“PR 中 99% 的代码由 DeepSeek-R1 编写，我只负责测试和编写提示。” 这证明大模型已经有能力编写良好的底层代码，甚至可以优化自身代码。

Llama.cpp 项目创始人对这段代码的评价是“比预期更爆炸”。这或许预示着，AI不仅能理解高级代码，还能深入底层，进行更精细的优化，从而推动整个行业的发展。