DeepSeek FlashMLA开源：H800性能暴增的秘密武器-AITOP100,AI资讯

DeepSeek开源周：FlashMLA引爆全网

今天，DeepSeek正式开启开源周，首发项目FlashMLA短时间内迅速走红，几小时内Star数已突破3.5K，且持续增长。FlashMLA到底是什么？以下为您奉上速通指南。

DeepSeek-FlashMLA详情

由 Grok 3 整理，APPSO 核实

FlashMLA：H800性能提升的关键

官方介绍，FlashMLA是为Hopper GPU优化的高效多头潜在注意力（MLA）解码内核，支持变长序列处理，已应用于生产环境。通过优化解码和分页KV缓存，FlashMLA能提升大语言模型（LLM）在H100/H800等高端GPU上的推理效率。

简单来说，FlashMLA是专为高性能AI芯片设计的先进技术，像一个高效“翻译器”，加速计算机处理语言信息。它能快速处理各种长度的语言信息，应用于聊天机器人时，能实现快速回复，避免卡顿。它通过优化复杂的计算过程，升级计算机的“大脑”，使其在处理语言任务时更高效。

DeepSeek-FlashMLA详情

DeepSeek指出，FlashMLA的灵感来源于FlashAttention 2&3和cutlass项目。FlashAttention是一种高效的注意力计算方法，优化Transformer模型的自注意力机制，减少显存占用，加速计算。Cutlass也是一个优化工具，提高计算效率。

DeepSeek的成功源于其以低成本创造高性能模型，这得益于在模型架构和训练技术上的创新，特别是混合专家（MoE）和多头潜在注意力（MLA）技术的应用。

deepseek

FlashMLA是DeepSeek公司开发的一种针对多头潜在注意力（MLA）技术的优化版本。那么，什么是MLA（多头潜在注意力）机制？

传统的语言模型使用“多头注意力（MHA）”技术，让计算机更好地理解语言。但MHA需要大量内存存储信息，就像一个仓库，空间利用率不高。

DeepSeekMoE

MLA的升级之处在于“低秩分解”方法，将大仓库压缩成小仓库，功能不变，节省空间，加快速度。尽管MLA压缩了仓库，但工作效果并未降低。

此外，DeepSeek还使用低精度训练、无辅助损失的负载均衡策略以及多Token预测（MTP）等技术降低训练和推理成本。性能数据显示，FlashMLA在内存和计算限制下的表现优于传统方法，这得益于其线性复杂度的设计和针对Hopper GPU的优化。

与标准多头注意力的对比，突显FlashMLA的优势：

DeepSeek-FlashMLA优势

FlashMLA的主要应用场景包括：

长序列处理：适合处理长文本，如文档分析或长对话。
实时应用：如聊天机器人、虚拟助手和实时翻译系统，降低延迟。
资源效率：减少内存和计算需求，便于在边缘设备上部署。

当前AI训练或推理主要依赖英伟达H100/H800，但软件生态仍在完善。FlashMLA的开源，有望被集成到vLLM、Hugging Face Transformers或Llama.cpp生态中，从而让开源大语言模型运行更高效。

同样的资源，能干更多的活，还省钱。FlashMLA拥有更高的计算效率（580 TFLOPS）和更好的内存带宽优化（3000 GB/s），同样的GPU资源可以处理更多请求，降低单位推理成本。

对AI公司或云计算服务商而言，使用FlashMLA意味着更低的成本、更快的推理，让更多AI公司、学术机构、企业用户直接受益，提高GPU资源的利用率。

DeepSeek-FlashMLA详情

研究人员和开发者还可以基于FlashMLA做进一步的优化。过去，高效AI推理优化技术主要掌握在巨头手中，现在，随着FlashMLA的开源，小型AI公司或独立开发者也能使用，有望催生更多AI创业项目。

简言之，如果您是AI从业者或开发者，在使用H100/H800训练或推理LLM，FlashMLA值得关注和研究。

与之前DeepSeek V3论文提及PTX细节相似，有网友发现FlashMLA项目中包含了一行内联PTX代码。

DeepSeek-FlashMLA详情

PTX是CUDA平台的中间指令集架构，位于高级GPU编程语言和低级机器代码之间，被视为英伟达的技术护城河之一。通过内联PTX，开发者可以更精细地控制GPU的执行流程，实现更高效的计算性能。

直接利用英伟达GPU的底层功能，而不完全依赖CUDA，有利于降低英伟达在GPU编程领域的技术壁垒优势。这可能意味着DeepSeek有意绕开英伟达封闭的生态。

本周预计还有GPT-4.5、Claude 4等模型发布，AI大战或将上演。

精彩可期！

FlashMLA官方部署指南

FlashMLA是一种高效的MLA解码内核，专为Hopper GPU优化，可用于处理变长序列推理。

当前已发布版本支持：

BF16
分页KV缓存，块大小为 64

在H800 SXM5上运行CUDA 12.6，FlashMLA在受内存带宽限制的配置下可达3000 GB/s，在受计算能力限制的配置下可达580 TFLOPS。

项目配备：

Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本

GitHub项目地址：https://github.com/deepseek-ai/FlashMLA

安装

python setup.py install

基准

python tests/test_flash_mla.py

python tests/test_flash_mla.py是一个命令行指令，用于运行Python测试文件test_flash_mla.py，通常用于测试flash_mla相关的功能或模块。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):

...

o_i, lse_i = flash_mla_with_kvcache(

q_i, kvcache_i, block_table, cache_seqlens, dv,

tile_scheduler_metadata, num_splits, causal=True,

) ...

目前由于访问人数较多导致DeepSeek服务器超负荷，大家可以从另外2个渠道去使用，不会卡：

渠道一：硅基流动（SiliconFlow）：AI人工智能云服务平台

渠道二：超算互联网中心：高性能计算AI服务综合平台

DeepSeek官网下载：【点击登录】

DeepSeek Janus-Pro文生图大模型地址：【点击登录】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

当然现在很多平台都接入了DeepSeek，大家也可以直接用他们的！