• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

刷新全球纪录!智谱GLM-5.1高速版API达400tokens/s,TileRT引擎首次揭秘

刷新全球纪录!智谱GLM-5.1高速版API达400tokens/s,TileRT引擎首次揭秘
AI TOP100
1小时前

2026年5月22日,智谱正式向部分企业客户推出GLM-5.1高速版API(GLM-5.1-highspeed)。该模型输出速度达到400tokens/s,刷新当前全球大模型厂商API的速度上限,首次在国产大模型中将旗舰级模型能力与极致低延迟同时带入生产环境。

工具地址:智谱AI官网

智谱GLM-5.1高速版

一、400TPS意味着什么:速度敏感场景的质变

在长程任务和复杂生产环境中,模型响应速度直接决定产品形态是否可行。400tokens/s的稳定输出能力,带来了三类过去难以实现的应用场景:

AI编程(Coding Agent):在完整保留GLM-5.1强大能力的基础上,新模型实现"即问即答"。模型能够一边理解工程上下文,一边持续生成代码与修改方案。在需要数十轮调用的重构项目中,彻底消除了累计数分钟的空等。

实时动态建模:在3D地图实测中,玩家控制角色移动并输入文字,模型能够瞬时完成建模并实时改变场景,实现真正的"边说边改"。

Agent Swarm并行调度:在长程任务中,模型可在30秒内完成复杂网页处理,并能瞬间调度50个不同人格并行回答,展现出新型操作系统的雏形。

过去行业存在一条隐形天花板——高性能模型必然高延迟,高速模型只能是轻量级模型。GLM-5.1高速版首次打破了这一惯例。

二、核心技术揭秘:TileRT高性能推理引擎

400TPS的稳定生产级能力,源于智谱GLM团队与TileRT团队联合进行的系统级优化。核心技术分为三层:

2.1 推理引擎层:TileRT编译期AOT静态编排

传统主流框架以算子(operator/kernel)作为基本调度单元,在单token、小batch场景下会放大调度、访存与同步开销。

TileRT彻底抛弃了Runtime层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡内,计算、异步IO与通信被拆解为Tile级微任务,整个推理只Launch一次Kernel,中间结果通过寄存器、Shared Memory和L2 Cache直传,不再写回全局内存。

这一设计从根本上消除了Kernel Launch的开销和全局内存读写的延迟,是400TPS得以实现的核心原因。

2.2 调度系统层

通过动态批处理、请求合并和KV缓存调度优化,显著降低了高并发场景下的尾延迟(tail latency),保障多用户并发调用时的稳定性。

2.3 基础设施层

在多卡尺度上,TileRT将SM内部的Warp Specialization思路扩展到整张8卡NVL拓扑,不同GPU rank依据计算密度与数据依赖被特化为不同worker,配合网络链路与负载均衡协同优化,确保高性能的常驻稳定性。

三、适用场景与开放计划

GLM-5.1高速版适用于对响应延迟要求极高的场景:

  • AI编程:Coding Agent需要数十轮连续调用,低速模型导致累计等待长达数分钟
  • 实时交互:对话式AI、实时语音助手需要低延迟响应
  • 商业决策:需要模型快速处理大量信息并给出结论
  • 实时语音:语音对话场景对延迟极度敏感

目前该服务已正式上线智谱MaaS平台并面向部分企业客户开放。智谱官方表示,未来将持续推进推理引擎的工程优化,进一步扩大高速模型的服务能力。

四、行业意义

GLM-5.1高速版的发布,在技术层面验证了推理引擎优化可以释放硬件潜能——不换GPU、不改模型,仅优化推理引擎就能将输出速度提升数倍。

在商业层面,400TPS意味着实时AI交互从"可行"走向"好用",为Coding Agent、实时语音、Agent Swarm等场景提供了工程可行性。这将直接影响MaaS服务商的产品形态和用户体验。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 智谱清言
相关资讯
  • 教程:AI生成电影级写实武侠动作视频《降龙十八掌》,附带提示词

  • 智谱AI推出ZCube组网架构:大模型推理性能与成本双突破,重构智算基础设施

  • Qwen3.7-Max重磅发布:正交解耦技术重构AI Agent底座,多项权威评测登顶国内第一

  • 2026西北首个千人规模AI短剧/漫剧生态发展交流会(西安站)圆满落幕

  • AI视频创作干货:放弃九宫格分镜,六宫格故事板让成片率从20%飙升至70%

热点资讯

智绘菠萝海AI庆百年|2026徐闻菠萝AIGC大赛 “劳模奖” 获奖公示

8天前
智绘菠萝海AI庆百年|2026徐闻菠萝AIGC大赛 “劳模奖” 获奖公示

每日AI资讯-2026年5月18日

3天前
每日AI资讯-2026年5月18日

每日AI资讯-2026年5月14日

7天前
每日AI资讯-2026年5月14日

阿里通义千问Qwen3.7预览版全球首发:文本/视觉双赛道跻身全球前列

2天前
阿里通义千问Qwen3.7预览版全球首发:文本/视觉双赛道跻身全球前列

腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

6小时前
 腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有