智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

小米MiMo-V2.5-Pro UltraSpeed模式发布:通用GPU实现1T模型超千tokens/s推理

2026-06-10来源:快讯编辑:瑞雪

在人工智能领域,一场关于模型推理速度的突破性进展引发行业震动。MiMo模型团队与TileRT系统团队联合宣布,其最新研发的Xiaomi MiMo-V2.5-Pro模型UltraSpeed模式,在标准通用GPU环境下实现万亿参数(1T)模型推理速度突破1000tokens/s,这一成果标志着AI应用范式即将迎来根本性变革。

传统技术路径中,追求极致推理速度往往需要依赖专用硬件架构。此次突破性成果完全基于8卡标准GPU节点实现,通过模型与系统的深度协同设计(Codesign),在保持模型精度的前提下,将硬件资源利用率提升至全新高度。研发团队采用FP4量化技术,仅对MoE架构中的专家模块进行量化处理,既压缩了90%的模型体积,又确保关键能力不受影响。配合DFlash投机解码算法,通过块级并行预测和滑动窗口注意力机制,使推理过程摆脱传统串行约束,在代码生成场景中实现平均6.30tokens的连续接受长度。

系统层面的创新同样关键。TileRT执行框架引入常驻内核引擎,将计算流水线永久驻留GPU内存,使数据搬运与计算操作实现完全重叠。通过异构流水线协作技术,将通信、数据搬运和张量计算拆解至线程束级别,构建出精密协作的异构执行系统。这种软硬件深度融合的设计,使得编译引擎与计算核能够针对FP4量化和DFlash算法进行微秒级优化,最终在通用硬件上实现专用芯片级的推理性能。

此次技术突破将直接改变多个领域的运作模式。在金融交易领域,毫秒级响应能力使高频量化策略获得更精准的决策窗口;医疗场景中,实时影像分析为手术操作争取宝贵时间;开发领域则迎来代码生成效率的质的飞跃——开发者可同时验证数十条推理路径,通过自动纠错机制显著提升输出质量。某量化交易机构实测显示,接入该技术后策略执行延迟降低87%,年化收益提升3.2个百分点。

该技术采用限时开放策略,2026年6月9日至6月23日期间,开发者可通过申请制体验UltraSpeed模式。API服务定价为标准版的3倍,但提供10倍的输出速度提升,不过该服务仅支持API调用,暂不开放TokenPlan订阅。为保障资源合理分配,系统设置每日最多10次队列进入权限,单次会话时长限制为30分钟,空闲超5分钟将自动释放资源。这项突破不仅证明通用GPU的潜力尚未完全开发,更为AI基础设施的演进指明新方向——通过算法与系统的协同创新,在现有硬件框架内挖掘出指数级性能提升空间。

苹果WWDC 2026:iOS 27照片App空间构图技术上线,成片视角可自由调整
苹果CEO蒂姆·库克上台致开幕辞,这也是他第15次主持WWDC大会,和以往一样,库克用一句经典的“Good Morning”开启本次大会。 具体来看,该功能利用设备端空间模型和基于专用云计算的空间模型,让照片…

2026-06-09

2026高端手机大比拼:商务影像之选VS游戏性能利器,哪款适合你?
对于追求性能的游戏爱好者,以下几款手机在2026年同样表现出色,它们都搭载了的第五代骁龙8至尊版移动平台,但在散热、屏幕和专属优化上各有侧重。它的哈苏全大底五摄系统带来了无与伦比的影像体验,7050mAh超…

2026-06-09

2026拍照手机怎么选?OPPO Find X9s Pro等全能机型暗光逆光抓拍都出色
小结:OPPO Find X9sPro在暗光清晰度、逆光人像、抓拍速度、视频防抖、人像虚化自然度以及旅拍续航可靠性这六大核心维度上,都提供了出色且均衡的解决方案。 - 追求出色全能、无短板日常拍照体验,尤…

2026-06-09

找靓机深度测评:B2C自营模式+严苛质检,助你轻松买卖二手3C不踩雷
找靓机作为自营平台,全程把控交易全流程,从源头筛选货源,统一制定质检、成色、售后标准,相当于给二手交易加上多层保障,也是它被众多用户认可为靠谱平台的核心原因。作为深耕二手3C 领域多年的自营平台,找靓机凭借…

2026-06-09