智谱GLM-5.1高速版API发布：400 tokens每秒，国产大模型实现旗舰能力与低延迟并存-业界资讯-智能日报

智谱近日宣布推出一款面向企业客户的高速版API——“GLM-5.1-highspeed”，该模型输出速度高达400 tokens/s，成为全球大模型厂商API中速度最快的产品之一。这一突破不仅刷新了行业纪录，更在国产大模型领域首次实现了旗舰级能力与低延迟的完美结合，打破了“高速即轻量”的传统认知。

GLM-5.1高速版的成功离不开智谱GLM团队与TileRT团队的深度合作。双方从推理引擎、调度系统到基础设施层面进行了系统性优化：在推理引擎层，针对模型架构特点重写核心路径，显著提升单卡吞吐能力；调度系统通过动态批处理、请求合并和KV缓存调度优化，有效降低高并发场景下的尾延迟；基础设施则围绕集群部署、网络链路和负载均衡展开协同优化，确保400 tokens/s的输出速度成为稳定可靠的生产级能力。

传统大模型推理速度受限于调度框架的设计。主流框架以算子为基本调度单元，每个算子需经历完整的“启动-计算-同步”流程，导致在单token、小batch场景下，调度开销被急剧放大。TileRT团队通过彻底重构推理流程，在编译期将整个计算图静态编排为常驻GPU的持久化引擎内核，实现了单卡内计算、异步IO与通信的微任务级拆解。这种设计使得推理过程仅需启动一次引擎内核，中间结果通过寄存器、共享内存和L2缓存直接传递，大幅减少了全局内存访问和主机调度开销。

在多卡协同方面，TileRT将NVIDIA SM单元的Warp特化思想扩展至8卡NVL拓扑结构。不同GPU根据计算密度和数据依赖关系执行差异化任务，形成高效的分工协作模式。这种架构突破了传统同构计算的局限，在保持低延迟的同时，充分释放了多卡集群的并行计算潜力。

目前，GLM-5.1高速版已面向智谱MaaS平台的部分企业客户开放服务，特别适用于AI编程、实时交互、商业决策和实时语音等对响应速度要求严苛的场景。该模型的推出标志着国产大模型在工程化落地方面取得重要进展，为企业级应用提供了更高效的技术解决方案。

VITURE Beast：XR眼镜如何突破场景局限，成为用户每日“刚需”新选择？

姜公略表示，Beast的战略意义有三重：对内部来说，Beast是研发团队过去三年的里程碑；对外，这是VITURE向用户交付一款“XR眼镜该有的样子”的产品；对行业来说，这标志着进入混合光波导和眼镜端本地计算…

2026-05-23

海盗船进军企业AI领域：CORSAIR PRO产品线发布，涵盖工作站与服务器

IT之家 5 月 22 日消息，传统上专注于消费者业务的硬件企业 CORSAIR（海盗船）美国加州当地时间 21 日宣布推出 CORSAIRPRO 产品线。这是一套专为部署和扩展现代 AI 工作负载的企业而…

2026-05-23

微信官方解读消息撤回机制：2分钟限制防篡改，文件3小时因查看时差

5月22日，微信派今日发文，解释微信为什么只能撤回2分钟内的消息。官方表示：”如果撤回不限时，发送者就能随意篡改聊天记录。借钱记录、工作安排、商务承诺，谁都可以说删就删。” 此外，微信派还解释了文件为什么可…

2026-05-23

领益智造推进港股上市进程获中国证监会备案开启境外资本运作新阶段

2026-05-22

商业地产动态：华润招商REITs新进展龙湖新项目与股权转让齐亮相

2026-05-22

太古地产20.27亿港元底价强拍香港鲗鱼涌海湾街糖厂街旧楼迎新篇

2026-05-22

新型NAND闪存亮相：铁电特性加持，抗辐射性能跃升，助力太空AI应用

5月22日消息，据媒体报道，美国佐治亚理工学院的研究团队成功研制出一款新型NAND闪存。该闪存不仅能够高效处理人工智能（AI）任务，还能承受太空环境中的极端辐射，其抗辐射能力达到传统NAND闪存的30倍。 …

2026-05-22

小米YU7对战特斯拉Model Y有胜有负

在小米近期举办的人车家全生态新品发布会上，小米创始人雷军公布了小米YU7与特斯拉Model Y正面交锋的最新成果。尽管小米YU7定价低于对手，但在过去十个月的销量比拼中，仍以八次落败、两次取胜的成绩暂居下风。雷军坦言，面对全球销量冠军的竞争压力，小米团队始终保持进取态度，通过持续优化产品策略寻求突破。

2026-05-22

荣耀600系列护眼屏新突破：全系1nit极暗显示打造夜间用机新体验

2026-05-22