智谱AI推出ZCube组网架构：大模型推理性能与成本双突破，重构智算基础设施-AITOP100,AI资讯

在大模型推理规模持续扩张、长上下文与智能体任务成为主流的行业背景下，网络架构已成为制约AI算力效率的核心瓶颈。

2026年5月21日，智谱AI 联合 驭驯网络、清华大学 正式宣布，新一代 ZCube组网架构 已在 GLM‑5.1 coding 生产环境完成规模化落地——在 不更换GPU、不改动软件栈与应用逻辑 的前提下，实现：

🔼 推理吞吐提升 15%
💰 网络硬件成本削减 33%
⚡首Token时延降低 40.6%

该技术成果最早于2025年9月在网络领域国际顶会 ACM SIGCOMM 2025 公开发表，被评价为"显著改变行业对大模型网络架构的认知方式"。此次落地是ZCube架构首次从学术研究走向产业级部署，标志着智算基础设施正式进入 模型流量驱动、网络拓扑深度协同 的全新发展阶段。

智谱AI推出ZCube组网架构

📌 一、行业痛点：传统网络架构成为大模型推理的性能瓶颈

随着大模型从对话交互向代码生成、长文本处理、智能体执行等复杂场景演进，KV Cache跨节点传输不对称、长上下文高频通信、Prefill‑Decode分离部署 成为常态。传统以 ROFT（Rail‑Optimized Fat‑Tree）为代表的多层Clos架构，采用 Spine‑Leaf 层级化堆叠设计，在万卡级集群中暴露出难以规避的结构性缺陷。

❌ 传统ROFT架构三大核心短板：

① 静态拓扑导致局部拥塞
固定链路分配易形成热点，出现"总带宽充裕、局部频繁阻塞"的矛盾现象，引发 PFC 反压与流量冲突，直接拉低整体推理效率。

② 硬件成本居高不下
多层交换机与光模块冗余配置，大幅提升数据中心资本支出，规模越大成本浪费越明显。

③ 扩展能力受限
层级化设计在超大规模集群中链路复杂度指数级上升，难以高效支持数万张GPU的线性扩展。

这些问题直接导致 GPU算力无法充分释放、推理时延波动大、硬件投入产出比偏低，成为制约大模型商业化落地的关键障碍。

📌 二、ZCube架构核心创新：扁平化拓扑从根源消除拥塞

ZCube架构彻底打破传统Clos架构的层级化思维，以 完全扁平化二部图互联 为核心，重构大模型推理集群的网络通信体系，实现 流量无阻塞、硬件极简、扩展无上限 三大技术突破。

🧱 1. 核心设计原理

🔸 取消Spine层交换机
摒弃多层堆叠，采用两组Leaf交换机直接构建扁平网络，大幅减少转发层级与硬件数量。

🔸 二部图最优路径
确保任意GPU之间存在 独享最短路径，从拓扑结构上杜绝流量冲突，实现全局负载均衡。

🔸 双端口网卡混合接入
结合单轨/多轨混合接入机制，适配大模型推理的非对称流量特征，提升链路利用率。

🔸 智能路由策略
基于模型通信模式动态调度，保障长上下文、KV Cache同步等关键任务的低时延传输。

📊 2. ZCube vs 传统ROFT架构关键对比

对比维度	传统ROFT架构	ZCube架构	核心优势
网络拓扑	Spine‑Leaf多层堆叠	完全扁平化二部图	无层级转发，降低时延
流量调度	静态分配，易拥塞	动态最优路径，无冲突	全局负载均衡，消除热点
硬件组成	需多层交换机+光模块	取消Spine层，硬件减半	成本降低33%
扩展能力	千卡级瓶颈明显	支持数十万GPU线性扩展	适配超大规模集群
推理性能	易受反压影响，吞吐波动	稳定高吞吐，低时延	吞吐+15%，时延‑40.6%