• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek开源计划第4天:三大代码库齐开源,推动V3/R1训练与推理技术革新

DeepSeek开源计划第4天:三大代码库齐开源,推动V3/R1训练与推理技术革新
AI TOP100
2025-02-27 13:35:19

DeepSeek开源三大优化策略,网友称已打破最后封印

2月27日,DeepSeek开源周迎来第四弹,重磅开源三个代码库,引发业界广泛关注。

deepseek开源第四天

此次开源包括:DualPipe,一种用于V3/R1训练的双向流水线并行算法,旨在实现计算与通信的重叠;EPLB,V3/R1的专家并行负载均衡器,优化GPU资源利用率;profile-data,训练和推理框架的分析数据,方便开发者进行性能分析。

DualPipe通过计算和通信的并行执行,有效减少训练过程中的空闲时间。EPLB则专注于平衡工作负载,最大限度地避免GPU资源浪费。

值得一提的是,DualPipe的开发团队中,梁文峰参与其中。

DeepSeek的此次开源举动,在开发者社区中赢得了高度赞誉,有开发者甚至称其“打开了最后的封印”,释放了大模型训练的潜力。

同时,DeepSeek团队的协作能力也受到了称赞。

当然,也有投资者开始关注此次开源对英伟达股价可能产生的影响。

01. DualPipe:高效的双向流水线并行算法

DualPipe是DeepSeek-V3技术报告中的亮点,是一种创新的双向Pipeline并行算法。它实现了前向和后向计算通信阶段的全面并行,并能有效减少流水线中的“气泡”现象。

DualPipe

例如,在双向并行处理中,8个PP列和20个微批的DualPipe调度可以实现计算和通信的重叠。

DualPipe通过优化,显著减少了流水线气泡,并降低了内存使用率。

DualPipe在双向并行处理中的表现

其中,𝐹表示前向块的执行时间,B表示完全后向块的执行时间,W表示“权重后向”块的执行时间,𝐹&𝐵表示两个相互重叠的前向和后向块的执行时间。

开发者可以通过以下方式快速启动DualPipe:

DualPipe启动

需要注意的是,在实际应用中,开发者需要根据具体模块,实现一个定制的overlapped_forward_backward方法。

DualPipe要求PyTorch版本在2.0及以上。

DualPipe要求PyTorch版本在2.0及以上

02. EPLB:灵活的负载均衡算法

DeepSeek开源的另一个重要代码库是EPLB。

 EPLB

在使用专家并行(EP)时,不同专家会被分配到不同的GPU上。由于各专家的负载可能存在差异,保持GPU间的负载均衡至关重要。DeepSeek-V3论文中提到,研究人员采用冗余专家策略,复制负载较重的专家,并将重复的专家分配到不同的GPU上,以实现负载均衡。

此外,DeepSeek-V3还使用了组限制专家路由,尽量将同一组的专家放置在同一节点上,以减少节点间的数据传输。

为了方便开发者使用,DeepSeek在eplb.py中开源了EP负载均衡算法。该算法基于对专家负载的估计,计算出一个均衡的专家复制和放置方案。

该负载均衡算法包含分层负载平衡和全局负载平衡两种策略,适用于不同的场景。

当服务器节点的数量可以被专家组的数量整除时,可以使用分层负载平衡策略。该策略首先将专家组均匀分配到节点上,然后复制专家,并将复制的专家分配到各个GPU上。分层负载均衡策略适用于专家并行规模较小的情况。

在其他情况下,可以使用全局负载平衡策略。该策略在全局范围内复制专家,并将复制的专家分配到GPU。该策略适用于专家并行度较高的解码阶段。

负载均衡器的主要功能是eplb.rebalance_experts。

以下代码展示了一个两层MoE模型的示例,每层包含12个专家,每层引入4个冗余专家,在2个节点上放置16个副本,每个节点包含4个GPU。

代码

03. DeepSeek Infra中的数据分析

此次开源的第三个代码库是DeepSeek训练和推理框架的分析数据。

 DeepSeek Infra中的数据分析

这些分析数据通过PyTorch Profiler捕获。开发者可以直接在Chrome或Edge浏览器中通过chrome://tracing (或 edge://tracing) 进行可视化。DeepSeek模拟了一种绝对平衡的MoE路由策略来进行性能分析。

训练配置文件数据展示了DualPipe中针对一对单独的向前和向后块的重叠策略。每个块包含4个MoE层。并行配置与DeepSeek-V3预训练设置一致:EP 64,TP 1,4K序列长度。为了简化分析,配置文件中不包含PP通信。

DualPipe

在推理过程中,对于预填充阶段,该配置文件采用EP 32和TP 1(与DeepSeek V3/R1的实际在线部署一致),提示长度设置为4K,每个GPU的批量大小为16 K令牌。为了实现计算和通信的重叠,DeepSeek使用了两个微批,并确保注意力计算负载在这两个微批之间保持平衡。

DualPipe

对于解码阶段,该配置文件采用EP 128,TP 1和4K的提示长度(与实际在线部署配置非常接近),每个GPU的批量大小为128个请求。与预填充类似,解码也使用了两个微批进行计算和全对全通信的重叠。但与预填充不同的是,解码期间的全对全通信不占用GPU SM:在发出RDMA消息后,所有GPU SM被释放,系统在计算完成后等待全对全通信完成。

DualPipe

DeepSeek开源计划第一天:【点击查看】

DeepSeek开源计划第二天:【点击查看】

DeepSeek开源计划第三天:【点击查看】

目前由于访问人数较多导致DeepSeek服务器超负荷,大家可以从另外2个渠道去使用,不会卡:

渠道一:硅基流动(SiliconFlow):AI人工智能云服务平台

渠道二:超算互联网中心:高性能计算AI服务综合平台

DeepSeek官网下载: 【点击登录】

DeepSeek Janus-Pro文生图大模型地址:【点击登录】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek‌
相关资讯
  • Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

  • 爱诗科技PixVerse V5视频模型全球上线,用户破亿背后藏着哪些狠活?

  • 谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

  • AI录音设备新标杆:Plaud AI Pro深度评测——续航30小时+智能屏幕如何重塑笔记场景?

  • Higgsfield上线Nano Banana:可24小时无限用,AI创作者狂喜!

热点资讯

谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

3天前
谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

7天前
2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

5天前
Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

2天前
重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

3天前
Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有