刷新全球纪录！智谱GLM-5.1高速版API达400tokens/s，TileRT引擎首次揭秘-AITOP100,AI资讯

2026年5月22日，智谱正式向部分企业客户推出GLM-5.1高速版API（GLM-5.1-highspeed）。该模型输出速度达到400tokens/s，刷新当前全球大模型厂商API的速度上限，首次在国产大模型中将旗舰级模型能力与极致低延迟同时带入生产环境。

工具地址：智谱AI官网

智谱GLM-5.1高速版

一、400TPS意味着什么：速度敏感场景的质变

在长程任务和复杂生产环境中，模型响应速度直接决定产品形态是否可行。400tokens/s的稳定输出能力，带来了三类过去难以实现的应用场景：

AI编程（Coding Agent）：在完整保留GLM-5.1强大能力的基础上，新模型实现"即问即答"。模型能够一边理解工程上下文，一边持续生成代码与修改方案。在需要数十轮调用的重构项目中，彻底消除了累计数分钟的空等。

实时动态建模：在3D地图实测中，玩家控制角色移动并输入文字，模型能够瞬时完成建模并实时改变场景，实现真正的"边说边改"。

Agent Swarm并行调度：在长程任务中，模型可在30秒内完成复杂网页处理，并能瞬间调度50个不同人格并行回答，展现出新型操作系统的雏形。

过去行业存在一条隐形天花板——高性能模型必然高延迟，高速模型只能是轻量级模型。GLM-5.1高速版首次打破了这一惯例。

二、核心技术揭秘：TileRT高性能推理引擎

400TPS的稳定生产级能力，源于智谱GLM团队与TileRT团队联合进行的系统级优化。核心技术分为三层：

2.1 推理引擎层：TileRT编译期AOT静态编排

传统主流框架以算子（operator/kernel）作为基本调度单元，在单token、小batch场景下会放大调度、访存与同步开销。

TileRT彻底抛弃了Runtime层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡内，计算、异步IO与通信被拆解为Tile级微任务，整个推理只Launch一次Kernel，中间结果通过寄存器、Shared Memory和L2 Cache直传，不再写回全局内存。

这一设计从根本上消除了Kernel Launch的开销和全局内存读写的延迟，是400TPS得以实现的核心原因。