DeepSeek开源周:FlashMLA引爆全网
今天,DeepSeek正式开启开源周,首发项目FlashMLA短时间内迅速走红,几小时内Star数已突破3.5K,且持续增长。FlashMLA到底是什么?以下为您奉上速通指南。
由 Grok 3 整理,APPSO 核实
FlashMLA:H800性能提升的关键
官方介绍,FlashMLA是为Hopper GPU优化的高效多头潜在注意力(MLA)解码内核,支持变长序列处理,已应用于生产环境。通过优化解码和分页KV缓存,FlashMLA能提升大语言模型(LLM)在H100/H800等高端GPU上的推理效率。
简单来说,FlashMLA是专为高性能AI芯片设计的先进技术,像一个高效“翻译器”,加速计算机处理语言信息。它能快速处理各种长度的语言信息,应用于聊天机器人时,能实现快速回复,避免卡顿。它通过优化复杂的计算过程,升级计算机的“大脑”,使其在处理语言任务时更高效。
DeepSeek指出,FlashMLA的灵感来源于FlashAttention 2&3和cutlass项目。FlashAttention是一种高效的注意力计算方法,优化Transformer模型的自注意力机制,减少显存占用,加速计算。Cutlass也是一个优化工具,提高计算效率。
DeepSeek的成功源于其以低成本创造高性能模型,这得益于在模型架构和训练技术上的创新,特别是混合专家(MoE)和多头潜在注意力(MLA)技术的应用。
FlashMLA是DeepSeek公司开发的一种针对多头潜在注意力(MLA)技术的优化版本。那么,什么是MLA(多头潜在注意力)机制?
传统的语言模型使用“多头注意力(MHA)”技术,让计算机更好地理解语言。但MHA需要大量内存存储信息,就像一个仓库,空间利用率不高。
MLA的升级之处在于“低秩分解”方法,将大仓库压缩成小仓库,功能不变,节省空间,加快速度。尽管MLA压缩了仓库,但工作效果并未降低。
此外,DeepSeek还使用低精度训练、无辅助损失的负载均衡策略以及多Token预测(MTP)等技术降低训练和推理成本。性能数据显示,FlashMLA在内存和计算限制下的表现优于传统方法,这得益于其线性复杂度的设计和针对Hopper GPU的优化。
与标准多头注意力的对比,突显FlashMLA的优势:
FlashMLA的主要应用场景包括:
- 长序列处理:适合处理长文本,如文档分析或长对话。
- 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
- 资源效率:减少内存和计算需求,便于在边缘设备上部署。
当前AI训练或推理主要依赖英伟达H100/H800,但软件生态仍在完善。FlashMLA的开源,有望被集成到vLLM、Hugging Face Transformers或Llama.cpp生态中,从而让开源大语言模型运行更高效。
同样的资源,能干更多的活,还省钱。FlashMLA拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的GPU资源可以处理更多请求,降低单位推理成本。
对AI公司或云计算服务商而言,使用FlashMLA意味着更低的成本、更快的推理,让更多AI公司、学术机构、企业用户直接受益,提高GPU资源的利用率。
研究人员和开发者还可以基于FlashMLA做进一步的优化。过去,高效AI推理优化技术主要掌握在巨头手中,现在,随着FlashMLA的开源,小型AI公司或独立开发者也能使用,有望催生更多AI创业项目。
简言之,如果您是AI从业者或开发者,在使用H100/H800训练或推理LLM,FlashMLA值得关注和研究。
与之前DeepSeek V3论文提及PTX细节相似,有网友发现FlashMLA项目中包含了一行内联PTX代码。
PTX是CUDA平台的中间指令集架构,位于高级GPU编程语言和低级机器代码之间,被视为英伟达的技术护城河之一。通过内联PTX,开发者可以更精细地控制GPU的执行流程,实现更高效的计算性能。
直接利用英伟达GPU的底层功能,而不完全依赖CUDA,有利于降低英伟达在GPU编程领域的技术壁垒优势。这可能意味着DeepSeek有意绕开英伟达封闭的生态。
本周预计还有GPT-4.5、Claude 4等模型发布,AI大战或将上演。
精彩可期!
FlashMLA官方部署指南
FlashMLA是一种高效的MLA解码内核,专为Hopper GPU优化,可用于处理变长序列推理。
当前已发布版本支持:
- BF16
- 分页KV缓存,块大小为 64
在H800 SXM5上运行CUDA 12.6,FlashMLA在受内存带宽限制的配置下可达3000 GB/s,在受计算能力限制的配置下可达580 TFLOPS。
项目配备:
- Hopper GPU
- CUDA 12.3 及以上版本
- PyTorch 2.0 及以上版本
GitHub项目地址:https://github.com/deepseek-ai/FlashMLA
安装
python setup.py install
基准
python tests/test_flash_mla.py
python tests/test_flash_mla.py是一个命令行指令,用于运行Python测试文件test_flash_mla.py,通常用于测试flash_mla相关的功能或模块。
用法
from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):
...
o_i, lse_i = flash_mla_with_kvcache(
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
) ...
目前由于访问人数较多导致DeepSeek服务器超负荷,大家可以从另外2个渠道去使用,不会卡:
渠道一:硅基流动(SiliconFlow):AI人工智能云服务平台
DeepSeek官网下载: 【点击登录】
DeepSeek Janus-Pro文生图大模型地址:【点击登录】
想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集
当然现在很多平台都接入了DeepSeek,大家也可以直接用他们的!








