Deepseek开源第二天：DeepEP面向MoE模型的高效通信库-AITOP100,AI资讯

Deepseek 开源 DeepEP：助力混合专家模型

Deepseek 在开源周第二天重磅推出 DeepEP，一款专为混合专家（MoE）模型设计的开源EP通信库。该库旨在实现混合专家模型训练和推理的全栈优化，为 AI 领域带来更高效的解决方案。

DeepEP 核心在于其为混合专家（MoE）和专家并行(EP)量身打造的高效通信机制。它提供高吞吐量和低延迟的多对多 GPU 内核，显著提升 MoE 调度和组合效率，让AI模型运行速度得到飞跃性的提升。

deepseek

DeepEP 的关键特性与优势

DeepEP 不仅支持 FP8 等低精度操作，还能与 DeepSeek-V3 论文中提出的组限制门控算法完美契合。通过优化不对称域带宽转发内核，例如将数据从 NVLink 域转发至 RDMA 域，DeepEP 显著提升了数据处理效率。其内核具备高吞吐量特性，尤其适合训练和推理预填充任务，并能灵活控制流处理器数量。

DeepEP的优势和特征

对于对延迟极其敏感的推理解码任务，DeepEP 提供了一组低延迟内核，通过纯 RDMA 技术实现延迟最小化。此外，DeepEP 还引入了一种基于钩子的通信-计算重叠方法，在不占用任何流处理器资源的前提下，进一步提升效率。

性能测试与兼容性

DeepEP 在 H800 和 CX7InfiniBand400Gb/s RDMA 网络卡上进行了全面测试。结果表明，其正常内核在内节点和跨节点上均表现出卓越的带宽性能，而低延迟内核也在延迟和带宽方面达到了预期目标。具体来说，低延迟内核在处理 8 个专家时的延迟仅为 163 微秒，带宽高达 46GB/s。

DeepEP 经过严格测试，与 InfiniBand 网络拥有良好的兼容性，理论上也支持在收敛以太网（RoCE）上运行。为了避免不同流量类型之间的干扰，建议在不同的虚拟通道中隔离流量，确保正常内核和低延迟内核互不影响。