在人工智能领域,大模型的训练和推理离不开强大的计算能力支撑,而矩阵运算又是其中的核心环节。
2月26日,DeepSeek在开源周的第三天放出大招,开源了DeepGEMM,这是一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供支持,一经推出就备受关注。

开源内容如下:
DeepSeek开源计划第 3 天:DeepGEMM
介绍:
DeepGEMM 一个支持密集和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 训练和推理提供支持。
- Hopper GPU 上最高可达 1350+ FP8 TFLOPS
- 没有过多的依赖,像教程一样简洁
- 完全即时编译
- 核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
- 支持密集布局和两种 MoE 布局
GitHub地址: https://github.com/deepseek-ai/DeepGEMM
什么是DeepGEMM
简单来说,DeepGEMM是一个用来进行矩阵乘法计算的库 ,在深度学习中,无论是训练一个识别猫狗的图像模型,还是能和你聊天的语言模型,都需要做大量的矩阵乘法。
DeepGEMM采用了FP8(8位浮点格式),相比于常用的FP16(16位浮点格式),它在保持一定精度的情况下,能减少数据存储和传输的负担,就好比用更小巧的容器装东西,节省空间还不影响使用。
而且,它不仅支持普通的矩阵乘法(密集GEMM),还对混合专家模型(MoE)中的矩阵乘法(MoE GEMM )提供支持。MoE模型是现在很火的一种模型架构,它能让模型变得更智能,DeepGEMM支持这种架构,就意味着它能为更先进的模型训练和推理提供帮助。
DeepGEMM的强大性能
DeepGEMM在性能上表现非常亮眼。在Hopper GPU上,它最高能达到1350+ FP8 TFLOPS的计算速度,这个数字意味着它每秒能进行超过1350万亿次的8位浮点运算,计算速度快到超乎想象。如此高的计算速度,使得深度学习模型的训练时间大幅缩短。例如训练一个大型语言模型,以往可能需要数周时间,借助DeepGEMM,或许能将时间缩短至几天,大大加快了研发进程。在推理方面,快速的计算也能让模型更快地给出结果,比如智能客服能更快地回答你的问题,图像识别软件能瞬间识别出图片内容。
独特优势
1. 简洁易用:
它没有过多复杂的依赖,不像有些库,使用前要安装一堆其他软件和工具,配置复杂的环境。DeepGEMM就像一个简单易用的小工具,拿来就能用,降低了开发者的使用门槛。
2. 即时编译:
采用完全即时编译技术,以往编译一个库,可能需要等待很长时间,而DeepGEMM在运行时能马上编译所有内核,不需要漫长的等待过程,开发者修改代码后能立刻看到效果,大大提高了开发效率。
3. 核心代码精简但性能卓越:
它的核心逻辑大约只有300行,别看代码量少,在大多数矩阵大小的情况下,比那些经过专家精心调优的内核表现还要出色。这就好比一个小巧的发动机,却能爆发出强大的动力。
4. 布局支持丰富:
支持密集布局和两种MoE布局,不同的深度学习模型和应用场景对矩阵布局有不同的要求,DeepGEMM的这种特性,使其能适应各种复杂的情况,无论是传统的神经网络,还是新兴的基于MoE架构的模型,它都能很好地发挥作用 。
对AI领域的影响
DeepGEMM的开源,为人工智能领域的发展注入了新的活力。对于学术研究人员来说,他们可以利用DeepGEMM更高效地验证新的算法和模型;对于企业开发者而言,能够降低开发成本,加速产品的迭代,比如开发智能语音助手、智能推荐系统等应用时,借助DeepGEMM可以提升性能,为用户提供更好的体验。
总的来说,DeepGEMM作为一个强大的FP8 GEMM库,以其卓越的性能和独特的优势,在人工智能的矩阵计算领域中脱颖而出,有望成为推动大模型发展的重要力量。如果你是一名AI开发者,不妨尝试使用DeepGEMM,感受它带来的高效与便捷。
DeepSeek开源第一天:DeepSeek开源计划首日发布:为Hopper GPU而生的FlashMLA正式亮相
DeepSeek开源第二天:Deepseek开源DeepEP:面向MoE模型的高效通信库
DeepSeek官网下载: 【点击登录】








