DeepSeek开源第三天：DeepGEMM，为大模型计算提速-AITOP100,AI资讯

在人工智能领域，大模型的训练和推理离不开强大的计算能力支撑，而矩阵运算又是其中的核心环节。

2月26日，DeepSeek在开源周的第三天放出大招，开源了DeepGEMM，这是一个支持密集和MoE GEMM的FP8 GEMM库，为V3/R1训练和推理提供支持，一经推出就备受关注。

DeepSeek开源第三天：DeepGEMM

开源内容如下：

DeepSeek开源计划第 3 天：DeepGEMM

介绍：

DeepGEMM 一个支持密集和 MoE GEMM 的 FP8 GEMM 库，为 V3/R1 训练和推理提供支持。

Hopper GPU 上最高可达 1350+ FP8 TFLOPS
没有过多的依赖，像教程一样简洁
完全即时编译
核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
支持密集布局和两种 MoE 布局

GitHub地址： https://github.com/deepseek-ai/DeepGEMM

什么是DeepGEMM

简单来说，DeepGEMM是一个用来进行矩阵乘法计算的库，在深度学习中，无论是训练一个识别猫狗的图像模型，还是能和你聊天的语言模型，都需要做大量的矩阵乘法。

DeepGEMM采用了FP8（8位浮点格式），相比于常用的FP16（16位浮点格式），它在保持一定精度的情况下，能减少数据存储和传输的负担，就好比用更小巧的容器装东西，节省空间还不影响使用。

而且，它不仅支持普通的矩阵乘法（密集GEMM），还对混合专家模型（MoE）中的矩阵乘法（MoE GEMM ）提供支持。MoE模型是现在很火的一种模型架构，它能让模型变得更智能，DeepGEMM支持这种架构，就意味着它能为更先进的模型训练和推理提供帮助。

DeepGEMM的强大性能

DeepGEMM在性能上表现非常亮眼。在Hopper GPU上，它最高能达到1350+ FP8 TFLOPS的计算速度，这个数字意味着它每秒能进行超过1350万亿次的8位浮点运算，计算速度快到超乎想象。如此高的计算速度，使得深度学习模型的训练时间大幅缩短。例如训练一个大型语言模型，以往可能需要数周时间，借助DeepGEMM，或许能将时间缩短至几天，大大加快了研发进程。在推理方面，快速的计算也能让模型更快地给出结果，比如智能客服能更快地回答你的问题，图像识别软件能瞬间识别出图片内容。

独特优势

1. 简洁易用：

它没有过多复杂的依赖，不像有些库，使用前要安装一堆其他软件和工具，配置复杂的环境。DeepGEMM就像一个简单易用的小工具，拿来就能用，降低了开发者的使用门槛。

2. 即时编译：

采用完全即时编译技术，以往编译一个库，可能需要等待很长时间，而DeepGEMM在运行时能马上编译所有内核，不需要漫长的等待过程，开发者修改代码后能立刻看到效果，大大提高了开发效率。

3. 核心代码精简但性能卓越：

它的核心逻辑大约只有300行，别看代码量少，在大多数矩阵大小的情况下，比那些经过专家精心调优的内核表现还要出色。这就好比一个小巧的发动机，却能爆发出强大的动力。

4. 布局支持丰富：

支持密集布局和两种MoE布局，不同的深度学习模型和应用场景对矩阵布局有不同的要求，DeepGEMM的这种特性，使其能适应各种复杂的情况，无论是传统的神经网络，还是新兴的基于MoE架构的模型，它都能很好地发挥作用。

对AI领域的影响

DeepGEMM的开源，为人工智能领域的发展注入了新的活力。对于学术研究人员来说，他们可以利用DeepGEMM更高效地验证新的算法和模型；对于企业开发者而言，能够降低开发成本，加速产品的迭代，比如开发智能语音助手、智能推荐系统等应用时，借助DeepGEMM可以提升性能，为用户提供更好的体验。

总的来说，DeepGEMM作为一个强大的FP8 GEMM库，以其卓越的性能和独特的优势，在人工智能的矩阵计算领域中脱颖而出，有望成为推动大模型发展的重要力量。如果你是一名AI开发者，不妨尝试使用DeepGEMM，感受它带来的高效与便捷。

DeepSeek开源第一天：DeepSeek开源计划首日发布：为Hopper GPU而生的FlashMLA正式亮相‌

DeepSeek开源第二天：Deepseek开源DeepEP：面向MoE模型的高效通信库

DeepSeek官网下载：【点击登录】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集