• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI音乐
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

DeepSeek开源计划第4天:三大代码库齐开源,推动V3/R1训练与推理技术革新

DeepSeek开源计划第4天:三大代码库齐开源,推动V3/R1训练与推理技术革新
AI TOP100
2025-02-27 13:35:19

DeepSeek开源三大优化策略,网友称已打破最后封印

2月27日,DeepSeek开源周迎来第四弹,重磅开源三个代码库,引发业界广泛关注。

deepseek开源第四天

此次开源包括:DualPipe,一种用于V3/R1训练的双向流水线并行算法,旨在实现计算与通信的重叠;EPLB,V3/R1的专家并行负载均衡器,优化GPU资源利用率;profile-data,训练和推理框架的分析数据,方便开发者进行性能分析。

DualPipe通过计算和通信的并行执行,有效减少训练过程中的空闲时间。EPLB则专注于平衡工作负载,最大限度地避免GPU资源浪费。

值得一提的是,DualPipe的开发团队中,梁文峰参与其中。

DeepSeek的此次开源举动,在开发者社区中赢得了高度赞誉,有开发者甚至称其“打开了最后的封印”,释放了大模型训练的潜力。

同时,DeepSeek团队的协作能力也受到了称赞。

当然,也有投资者开始关注此次开源对英伟达股价可能产生的影响。

01. DualPipe:高效的双向流水线并行算法

DualPipe是DeepSeek-V3技术报告中的亮点,是一种创新的双向Pipeline并行算法。它实现了前向和后向计算通信阶段的全面并行,并能有效减少流水线中的“气泡”现象。

DualPipe

例如,在双向并行处理中,8个PP列和20个微批的DualPipe调度可以实现计算和通信的重叠。

DualPipe通过优化,显著减少了流水线气泡,并降低了内存使用率。

DualPipe在双向并行处理中的表现

其中,𝐹表示前向块的执行时间,B表示完全后向块的执行时间,W表示“权重后向”块的执行时间,𝐹&𝐵表示两个相互重叠的前向和后向块的执行时间。

开发者可以通过以下方式快速启动DualPipe:

DualPipe启动

需要注意的是,在实际应用中,开发者需要根据具体模块,实现一个定制的overlapped_forward_backward方法。

DualPipe要求PyTorch版本在2.0及以上。

DualPipe要求PyTorch版本在2.0及以上

02. EPLB:灵活的负载均衡算法

DeepSeek开源的另一个重要代码库是EPLB。

 EPLB

在使用专家并行(EP)时,不同专家会被分配到不同的GPU上。由于各专家的负载可能存在差异,保持GPU间的负载均衡至关重要。DeepSeek-V3论文中提到,研究人员采用冗余专家策略,复制负载较重的专家,并将重复的专家分配到不同的GPU上,以实现负载均衡。

此外,DeepSeek-V3还使用了组限制专家路由,尽量将同一组的专家放置在同一节点上,以减少节点间的数据传输。

为了方便开发者使用,DeepSeek在eplb.py中开源了EP负载均衡算法。该算法基于对专家负载的估计,计算出一个均衡的专家复制和放置方案。

该负载均衡算法包含分层负载平衡和全局负载平衡两种策略,适用于不同的场景。

当服务器节点的数量可以被专家组的数量整除时,可以使用分层负载平衡策略。该策略首先将专家组均匀分配到节点上,然后复制专家,并将复制的专家分配到各个GPU上。分层负载均衡策略适用于专家并行规模较小的情况。

在其他情况下,可以使用全局负载平衡策略。该策略在全局范围内复制专家,并将复制的专家分配到GPU。该策略适用于专家并行度较高的解码阶段。

负载均衡器的主要功能是eplb.rebalance_experts。

以下代码展示了一个两层MoE模型的示例,每层包含12个专家,每层引入4个冗余专家,在2个节点上放置16个副本,每个节点包含4个GPU。

代码

03. DeepSeek Infra中的数据分析

此次开源的第三个代码库是DeepSeek训练和推理框架的分析数据。

 DeepSeek Infra中的数据分析

这些分析数据通过PyTorch Profiler捕获。开发者可以直接在Chrome或Edge浏览器中通过chrome://tracing (或 edge://tracing) 进行可视化。DeepSeek模拟了一种绝对平衡的MoE路由策略来进行性能分析。

训练配置文件数据展示了DualPipe中针对一对单独的向前和向后块的重叠策略。每个块包含4个MoE层。并行配置与DeepSeek-V3预训练设置一致:EP 64,TP 1,4K序列长度。为了简化分析,配置文件中不包含PP通信。

DualPipe

在推理过程中,对于预填充阶段,该配置文件采用EP 32和TP 1(与DeepSeek V3/R1的实际在线部署一致),提示长度设置为4K,每个GPU的批量大小为16 K令牌。为了实现计算和通信的重叠,DeepSeek使用了两个微批,并确保注意力计算负载在这两个微批之间保持平衡。

DualPipe

对于解码阶段,该配置文件采用EP 128,TP 1和4K的提示长度(与实际在线部署配置非常接近),每个GPU的批量大小为128个请求。与预填充类似,解码也使用了两个微批进行计算和全对全通信的重叠。但与预填充不同的是,解码期间的全对全通信不占用GPU SM:在发出RDMA消息后,所有GPU SM被释放,系统在计算完成后等待全对全通信完成。

DualPipe

DeepSeek开源计划第一天:【点击查看】

DeepSeek开源计划第二天:【点击查看】

DeepSeek开源计划第三天:【点击查看】

目前由于访问人数较多导致DeepSeek服务器超负荷,大家可以从另外2个渠道去使用,不会卡:

渠道一:硅基流动(SiliconFlow):AI人工智能云服务平台

渠道二:超算互联网中心:高性能计算AI服务综合平台

DeepSeek官网下载: 【点击登录】

DeepSeek Janus-Pro文生图大模型地址:【点击登录】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek‌
相关资讯
  • 全球首个纯AMD训练的MoE大模型ZAYA1发布,性能对标Qwen3

  • ChatGPT推出购物研究工具:从产品搜索到个性化推荐的全流程解析

  • 谷歌NotebookLM重磅更新!AI幻灯片生成器正式上线,效率飙升!

  • AI赋能短视频创作:Palo平台2025年正式上线,助力创作者告别内容焦虑

  • 安卓Chrome Canary尝鲜AI图像生成!无需跳转,一键搞定!

热点资讯

2025年11月18日重磅!蚂蚁集团灵光App震撼上线,30秒生成应用不是梦

7天前
2025年11月18日重磅!蚂蚁集团灵光App震撼上线,30秒生成应用不是梦

Google Gemini 3.0 即将震撼发布!百万级上下文+全模态推理引领AI新时代

7天前
 Google Gemini 3.0 即将震撼发布!百万级上下文+全模态推理引领AI新时代

谷歌NotebookLM迎来史诗级更新!PPT制作神器Slide Decks正式上线,效率起飞!

4天前
谷歌NotebookLM迎来史诗级更新!PPT制作神器Slide Decks正式上线,效率起飞!

AI漫剧广告消耗激增,巨量引擎日均投放达千万级

7天前
AI漫剧广告消耗激增,巨量引擎日均投放达千万级

重磅!谷歌Nano Banana Pro图像生成模型正式上线,Gemini3加持,4K画质惊艳!

4天前
重磅!谷歌Nano Banana Pro图像生成模型正式上线,Gemini3加持,4K画质惊艳!
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有