DeepSeek V3/R1 推理系统：突破AI性能瓶颈，加速通用人工智能发展-AITOP100,AI资讯

DeepSeek V3/R1 推理系统：加速AGI发展的新引擎

在人工智能（AI）技术日新月异的今天，DeepSeek 团队推出了颠覆性的 DeepSeek-V3/R1 推理系统。该系统以其卓越的吞吐量和极低的延迟，旨在推动 AGI（通用人工智能）进入高效发展的新纪元。为了达成这一目标，DeepSeek 创新性地采用了跨节点专家并行（Expert Parallelism，EP）技术，大幅提升了 GPU 的计算效率，并在降低延迟的同时，实现了更大规模的批处理。

DeepSeek-V3/R1 的核心优势在于其极高的稀疏性。模型中的每一层仅激活 256 个专家中的 8 个，这就要求极大的批处理规模，以保证每个专家都能获得充足的处理能力。为了支持这种架构，该系统采用了预填充解码分离（prefill-decode disaggregation）方法，在预填充和解码阶段采用了差异化的并行化策略，以达到最优性能。

双批次重叠与五级流水线：性能优化的关键策略

在预填充阶段，DeepSeek 通过实施双批次重叠策略，巧妙地隐藏了通信成本。这意味着在处理当前批次请求的同时，下一批次的通信过程已经在后台进行，从而显著提升了整体吞吐量。而在解码阶段，为了解决不同执行阶段的时间不平衡问题，DeepSeek 巧妙地设计了五级流水线，实现了通信与计算的无缝重叠。

智能负载均衡：确保资源高效利用

为了有效应对大规模并行性带来的负载不均问题，DeepSeek 团队精心设计了多个负载均衡器。这些负载均衡器的核心职责是在所有 GPU 之间动态平衡计算和通信负载，避免任何单一 GPU 因超负荷运算而成为性能瓶颈，从而确保了整体资源的高效利用。

卓越的服务性能

DeepSeek-V3/R1 推理服务在 H800 GPU 上稳定运行，并采用了与训练过程完全一致的矩阵乘法和传输格式，确保了推理的准确性和效率。根据最新的统计数据，该系统在过去 24 小时内成功处理了 6080 亿个输入令牌，最高节点占用率达到了惊人的 278，日均占用率也高达 226.75，充分证明了其卓越的服务性能。