智谱联合推出ZCube组网架构，推理成本降三成

引言：大模型推理的算力瓶颈与网络架构新命题

过去两年，大模型行业的算力竞赛几乎等同于“堆GPU”。可是，随着模型规模逼近万亿参数，推理场景日益复杂，单纯增加硬件数量带来的边际收益正在下降。2026年5月，智谱联合驭驯网络与清华大学，在GLM-5.1线上生产集群中规模化落地了新一代网络架构ZCube，尝试回答一个根本性问题：能否在不增加一块GPU、不更换服务器、不改动一行应用代码的前提下，大幅提高算力效率、降低推理成本？ 实测结果给出了肯定的答案——推理吞吐提升15%，首Token尾延迟（TTFT P99）降低40%，网络硬件成本直降三分之一。这标志着大模型基础设施正从“暴力堆料”转向“架构调优”的新阶段。

ZCube的核心创新：颠覆二十年组网逻辑

取消Spine层，全网扁平化拓扑

传统数据中心网络普遍采用Leaf-Spine（叶脊）架构，Spine层交换机负责连接所有Leaf交换机，形成三级拓扑。这种设计在大规模AI集群中暴露出严重问题：PD分离部署模式下，Prefill（预填充）与Decode（解码）阶段的数据流不对称，导致Spine层出现结构性网络拥塞，交换机间负载不均，大量带宽被浪费。

ZCube架构的关键变革在于直接取消Spine层交换机，代之以全网扁平化拓扑。所有GPU节点通过单轨或多轨混合接入方式直接互联，消除了跨层跳转带来的冗余转发路径。这种设计使得任意两点之间的通信跳数减少，交换机间实现完美负载均衡，从根本上解决了拥塞瓶颈。

单/多轨混合接入与自适应路由

ZCube并非简单地“砍掉”一层，而是引入了智能化的混合接入策略：对于延迟敏感的小流量（如控制信令），采用单轨直连；对于需要高吞吐的大流量（如模型并行通信），启用多轨冗余路径。配合自适应路由算法，数据包可根据实时链路利用率动态选择最优路径，进一步降低尾延迟。

性能实测：不加一块GPU，多榨出15%算力

在GLM-5.1 coding生产环境的基准测试中，ZCube的表现超出预期。所有测试均在保持GPU算力、软件栈与应用代码完全不变的条件下进行，排除了硬件升级或算法优化的干扰，纯粹验证架构调优的价值。

指标	传统Leaf-Spine架构	ZCube架构	提升幅度
GPU平均推理吞吐量	基线	提升15%	+15%
TTFT P99（首Token尾延迟）	基线	降低40.6%	-40.6%
交换机与光模块成本	基线	节省33%	-33%

需要关注的是，TTFT P99的显著下降对交互式应用（如代码生成、对话系统）非常关键，意味着用户感受到的“第一个字响应时间”更加稳定，长尾延迟痛点得到有效缓解。

成本结构优化：硬件投入直降三分之一

网络硬件成本是大模型推理集群中必须重视的组成部分。传统方案中，Spine层交换机及其配套光模块占据总网络投资的40%以上，且随着集群规模扩大，这种开销呈非线性增长。ZCube通过移除Spine层，并采用更高密度的扁平化互联，将所需交换机与光模块数量减少了约33%。

这一节省并非以牺牲性能为代价。相反，由于负载均衡的改善，同等配置下集群的有效算力反而更高。按照智谱公开的数据，若按原本需要100台交换机的方案，ZCube仅需约67台，同时每个交换机的端口利用率从不足60%提升至接近90%。硬件采购成本、机房空间、功耗均同步下降，直接降低了MaaS服务的准入门槛。

技术原理：破解PD分离部署的结构性拥塞

理解ZCube的效能，需要先分析大模型推理中“PD分离”带来的网络特征。在Prefill阶段，模型需要快速处理用户输入（Prompt），产生大量密集的矩阵计算，GPU间通信以AllReduce为主；在Decode阶段，模型逐Token生成输出，通信以小包、低延迟为主。两阶段对带宽和时延的需求截然不同。

传统Leaf-Spine架构将所有流量混入同一层次，导致频繁发生“大流阻塞小流”的乱序现象。ZCube针对这一特征做了三项关键设计：

拓扑解耦：将Prefill节点与Decode节点在物理网络上分层微隔离，避免互相干扰。
非对称带宽分配：为Prefill区域配置更高的上行带宽，为Decode区域配置更低的延迟路径。
自适应拥塞控制：借鉴RoCEv2的ECN机制，结合ZCube专有的显式拥塞通告算法，在交换机端直接标记拥塞源，实现毫秒级流量调度。

行业影响：从算力军备竞赛到架构效率革命

对AI基础设施厂商的启示

ZCube的落地证明，在当前制程进步趋缓的背景下，网络架构创新是释放存量算力潜力的高效路径。其核心思想——用扁平化拓扑取代分层堆叠、用智能调度取代静态配置——可能成为下一代AI集群组网的标准范式。

对模型部署成本的影响

算力成本降低30%以上（推理吞吐提升叠加硬件成本下降），意味着同样规模的集群可以承载更多用户请求，或支撑更大参数量模型的在线服务。对于智谱自身，GLM-5.1的MaaS定价有望进一步下调，加速大模型在编程、客服等商业场景的普及。

与全球趋势的呼应

几乎在同一时间窗口，OpenAI联合NVIDIA、AMD、Intel等巨头发布了MRC协议，同样致力于解决跨厂商芯片的互联效率问题。尽管技术路线不同（MRC侧重接口标准化，ZCube侧重拓扑与路由），但二者共同指向一个结论：大模型竞争正在从“拼单卡算力”转向“拼系统效率”。网络不再是算力集群的配角，而是决定集群整体效能的战略级基础设施。

总结与展望

ZCube组网架构通过消除Spine层、引入扁平化拓扑与智能路由，在不增加任何硬件的条件下实现了15%的推理吞吐提升和40%的尾延迟降低，同时节省三分之一网络硬件成本。这一成果标志着大模型推理基础设施正式迈入系统级协同优化时代。未来，随着PD分离进一步推广、模型上下文窗口持续增长，网络架构的调优空间还将更大——或许在不远的将来，“算力即一切”的口号将被替换为“系统效率即一切”。

智谱联合推出ZCube组网架构，推理成本降三成

引言：大模型推理的算力瓶颈与网络架构新命题

ZCube的核心创新：颠覆二十年组网逻辑

取消Spine层，全网扁平化拓扑

单/多轨混合接入与自适应路由

性能实测：不加一块GPU，多榨出15%算力

成本结构优化：硬件投入直降三分之一

技术原理：破解PD分离部署的结构性拥塞

行业影响：从算力军备竞赛到架构效率革命

对AI基础设施厂商的启示

对模型部署成本的影响

与全球趋势的呼应

总结与展望

热门话题

最新话题

智谱联合推出ZCube组网架构，推理成本降三成

引言：大模型推理的算力瓶颈与网络架构新命题

ZCube的核心创新：颠覆二十年组网逻辑

取消Spine层，全网扁平化拓扑

单/多轨混合接入与自适应路由

性能实测：不加一块GPU，多榨出15%算力

成本结构优化：硬件投入直降三分之一

技术原理：破解PD分离部署的结构性拥塞

行业影响：从算力军备竞赛到架构效率革命

对AI基础设施厂商的启示

对模型部署成本的影响

与全球趋势的呼应

总结与展望

最新文档

热门文档

热门话题

最新话题