• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek V3 另辟蹊径:PTX优化挑战英伟达CUDA,AI或将自我优化底层代码

DeepSeek V3 另辟蹊径:PTX优化挑战英伟达CUDA,AI或将自我优化底层代码
AI TOP100
2025-01-30 21:40:37

DeepSeek V3 性能飞跃:挑战英伟达CUDA生态?

在经历DeepSeek-R1带来的市场震荡后,英伟达再次面临新的挑战。这次,焦点落在了DeepSeek-V3的技术细节上。硬件媒体Tom's Hardware报道指出,DeepSeek团队的优化策略非常激进,他们甚至绕开了CUDA,选择使用更底层的编程语言进行性能提升。

DeepSeek下载地址》》》

Mirae Asset Securities Research的分析显示,DeepSeek-V3的硬件效率之所以能达到Meta的10倍,关键在于他们对底层架构进行了“从头开始的重建”。在使用英伟达H800 GPU进行训练时,DeepSeek团队将132个流式多处理器(SMs)中的20个调整为负责服务器间的通信,而非计算,从而突破了硬件通信速度的限制。

这种优化是通过英伟达的PTX(Parallel Thread Execution)语言实现的,而非常用的CUDA。PTX 接近汇编语言,允许进行细粒度的优化,如寄存器分配和线程级调整,但编程难度高,难以维护。行业普遍使用CUDA等高级语言,以简化开发过程。

DeepSeek 的做法可谓是将优化做到了极致。有评论认为,只有前量化交易员才会为了性能如此深度优化。一位亚马逊工程师甚至提出疑问:CUDA是否还能继续作为英伟达的护城河?顶尖实验室或许已经具备有效利用任何GPU的能力。

甚至有声音开始畅想,如果DeepSeek开源一种CUDA替代方案,是否会改变行业格局?

DeepSeek 并非完全绕开 CUDA

需要明确的是,PTX 本身也是英伟达GPU架构的一部分,它是 CUDA 编程模型中的中间表示。PTX类似于汇编语言,是连接高级 CUDA 代码和底层硬件指令的桥梁。CUDA 代码首先被编译为 PTX,然后进一步编译为目标 GPU 架构的机器码。

CUDA提供了高级编程接口和工具链,简化开发流程,而 PTX 则作为中间层,保证了 CUDA 程序的跨架构兼容性。DeepSeek 直接编写 PTX 代码虽然能实现极致优化,但代码非常复杂,难以移植到不同型号的 GPU 上。

业内人士表示,为 H100 优化的代码在其他型号的 GPU 上可能会失效。因此,DeepSeek 的 PTX 优化虽然没有完全脱离 CUDA 生态,但确实展示了他们优化不同 GPU 硬件的能力。

目前,DeepSeek 已与 AMD、华为等团队合作,提供了对其他硬件生态的支持,表明了其在跨平台优化上的实力。

AI 辅助编写底层代码:未来趋势?

值得注意的是,有人提出,让 AI 擅长编写汇编语言可能是 AI 自我改进的一个方向。我们尚不清楚 DeepSeek 是否使用了 AI 辅助编写 PTX 代码。

但近期,DeepSeek-R1 编写的代码确实显著提升了大模型推理框架的运行速度。Llama.cpp 项目的一个新 PR 请求,使用 SIMD 指令优化了 WebAssembly 中的点积函数,提交者声称:“PR 中 99% 的代码由 DeepSeek-R1 编写,我只负责测试和编写提示。” 这证明大模型已经有能力编写良好的底层代码,甚至可以优化自身代码。

Llama.cpp 项目创始人对这段代码的评价是“比预期更爆炸”。这或许预示着,AI不仅能理解高级代码,还能深入底层,进行更精细的优化,从而推动整个行业的发展。

0
0
原文链接:https://36kr.com/p/3143877560589065
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • Higgsfield AI消散特效制作完整教程:一键打造电影级Disintegration视觉效果

  • 每日AI资讯-2025年08月06日

  • 360发力AI智能体高阶应用,周鸿祎提出L1 - L5分级模型

  • AIGC大赛:首届王十朋主题AI视频大赛火热开启

  • Higgsfield AI重磅推出UPSCALE功能!携手Topaz Labs打造8K级图像视频增强利器

热点资讯

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

11小时前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

2天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解

8天前
豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解

阿里Wan2.2正式发布:开源AI视频生成模型全面超越Sora,支持4K高清视频制作

5天前
阿里Wan2.2正式发布:开源AI视频生成模型全面超越Sora,支持4K高清视频制作

阿里通义千问开源Qwen-Image:重新定义图像生成与编辑新标准

1天前
阿里通义千问开源Qwen-Image:重新定义图像生成与编辑新标准
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有