智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

小米MiMo大模型API降价99%揭秘:全链路优化驱动大模型普惠化

2026-06-02来源:快讯编辑:瑞雪

近日,小米宣布对其MiMo-V2.5系列API进行永久性价格调整,最高降幅达99%,这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化,使得推理成本大幅降低,为AI应用的普及提供了新的可能。

小米MiMo大模型团队通过系统性重构推理栈,包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路,成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著,推理成本大幅下降,为大规模AI应用提供了经济高效的解决方案。

在技术实现上,MiMo-V2.5系列模型采用了Hybrid SWA架构,其中SWA层占比高达6/7,计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量,还显著降低了KV Cache的存储需求,使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施,提升了KV Cache的命中率,进一步降低了推理成本。

小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出,输入(缓存命中)部分降幅高达99%,主要得益于推理框架对SWA分层键值缓存优化的支持。而输入(缓存未命中)和输出价格降低60%-80%,则是因为Hybrid SWA架构中SWA层的高占比,使得计算量大幅减少。罗福莉还强调,尽管API价格大幅下调,但小米的生产推理引擎仍能基本实现收支平衡。

在调度优化方面,小米开发了可动态扩展的无状态调度器LLM-Router,通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。同时,小米还引入了计算量感知优先调度策略,优先处理真实计算token数更少的请求,进一步降低了推理延迟。

Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化,小米成功提升了KV Cache的有效容量,使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出,进一步降低了智能体场景下的真实decode成本。

在多模态推理方面,MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复,将Encoder吞吐提升至2倍,显著提高了多模态推理的效率。

vivo X Fold6折叠屏新机亮点多:天玑9500芯+大电池,6月下旬或登场
也就是说,全新的vivo XFold6将配备8.02英寸的内屏和6.51英寸的外屏,核心搭载天玑9500芯片,内置7000mAh级别的电池,外屏和内屏分别配备2000万像素的自拍镜头。 除了折叠屏系列产品…

2026-06-02

安蒙COMPUTEX演讲:高通布局智能体时代,打造“计算连续体”新生态
从手机、PC到汽车、机器人和数据中心,高通强调的是同一个逻辑:智能体不会只运行在云端,而是会分布在各种终端和边缘节点之中。 过去的十几年里,移动互联网让手机成为数字生活中心,而在AI时代,智能体AI正在让计…

2026-06-02

iPhone 20周年献礼!iOS 28系统重磅升级,软硬件协同开启新篇章
6月1日消息,明年是iPhone发布20周年节点,苹果除了推出极具纪念意义的iPhone 20系列之外,还会同步发布全新一代iOS28操作系统,软硬件双线升级的分量直接拉满。 此前在iOS 26版本上,苹果…

2026-06-01

时隔六年HomePod mini2终亮相:芯片升级Wi-Fi 6E,AI功能体验再提升
据彭博社报道,近日,苹果新款Apple TV机顶盒与HomePod mini硬件已开发完毕,将重点升级芯片以支持AppleIntelligence相关的全新AI功能。 Wi-Fi从4代升级到Wi-Fi 6…

2026-06-01

技嘉COMPUTEX 2026前线:RTX 5080木艺显卡搭配X870E蝶翼主板亮相
IT之家 6 月 1 日消息,参考外媒 PCMag 的 COMPUTEX 2026 前线返图,技嘉 (GIGABYTE)在今日的一次媒体活动上公布了 AORUS GeForce RTX 5080 INFIN…

2026-06-01

冰箱新能效标准今起施行:新一级能效年省电135度 推动行业绿色升级
新国标核心指标大幅升级,新一级能效产品耗电量较原一级能效下降40%,彻底重构行业竞争格局。以500升对开门冰箱为例,现行一级能效日均耗电0.92度,新标准降至0.55度,降幅达40%。 对消费者而言,选购…

2026-06-01

全球AI Lab排名第九的Agnes AI放大招,不限时免费开放全模态API实测来袭
我们要求模型根据海洋生物特征生成一套建筑概念设计信息图,既要展示灵感来源,也要呈现设计推导过程和最终建筑方案。 从微表情、情绪递进到镜头表现,Agnes-Video-V2.0生成的视频还具备了戏剧张力,也让A…

2026-06-01

华为nova 16系列正式登场,鸿蒙系统+强大影像,2999元起售引期待
6月1日,华为nova 16及全场景新品发布会举行,华为nova 16系列正式发布,将于6月5日10:08开售。 据介绍,华为nova 16标准版提供256GB与512GB两个内存版本,其中256GB版售价2…

2026-06-01