智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

小米MiMo发布HySparse架构:为Agent时代超长文本处理带来高效新方案

2026-02-08来源:快讯编辑:瑞雪

在Agent模型与应用迅猛发展的当下,如何精准且高效地处理超长文本,已成为大模型领域亟待攻克的关键难题。Agent不仅要能在超长上下文中完成稳定的检索、推理以及多轮规划任务,还需在推理阶段保持足够快的响应速度。此时,最大的挑战已从“能否计算”转变为“能否算得起”。

面对这一挑战,小米MiMo大模型团队推出了HySparse架构,这是一种专为Agent时代打造的混合稀疏注意力架构。该架构采用“极少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”的核心设计理念,旨在实现效果与效率的完美平衡。

在多项通用、数学、代码以及中文评测中,HySparse架构展现出了卓越的性能。无论是7B Dense规模还是80B MoE规模,HySparse均能为模型带来显著提升。以80B - A3B MoE模型实验为例,在总共49层的模型中,HySparse仅保留5层Full Attention,却依然能够保持甚至提升模型的整体能力。同时,KV Cache存储降低至原来的1/11,真正做到了在保证效果的同时大幅提升效率。

RULER长文测试的结果进一步证明了HySparse架构的优势。即便将Full Attention层压缩到极少数,该架构也能稳定地保持对长距离关键信息的访问能力,充分彰显了其混合稀疏结构的独特魅力。

HySparse架构的创新之处在于其采用了hybrid block结构。每个hybrid block由1层Full Attention和N层Sparse Attention组成。在hybrid block内部,Sparse Attention层不再独立进行token选择和维护全量KV,而是直接复用前置Full Attention层生成的重要token索引和KV Cache。这一设计背后的逻辑在于,Full Attention在完成自身计算的同时,已经生成了KV Cache,并且计算出了最准确的token重要性信息,后续的N个Sparse Attention层自然可以直接复用这些信息。

可以认为,HySparse架构是在MiMo - V2 - Flash的Hybrid SWA结构基础上进行的优化升级。它为SWA增加了全局的、更重要的token信息补充,这一改进不仅提升了模型性能,而且没有增加KV Cache存储,也没有显著增加计算开销。

目前,小米MiMo团队已计划在更大规模的模型上进一步验证HySparse架构的极限和潜力。同时,团队还将持续探索降低Full Attention层数量的可能性,力求让超长上下文的处理变得更加高效。HySparse架构为Agent时代的超长文本处理提供了高效精准的技术解决方案,也为大模型高效注意力结构的研究与落地提供了全新的参考范例。

2026年春节将至,内蒙古1827个充电枪就位,助新能源车主无忧返乡
随着2026年春节的临近,内蒙古地区为迎接新能源汽车的出行高峰,提前布局了高速公路充电设施,确保每一位新能源车主都能顺畅出行。至今,全区的高速公路服务区已经配备了1827个充电枪,为长途驾驶提供了强有力的支持…

2026-02-08

2026年春节出行必看!内蒙古1827把充电枪就位,助新能源车畅行高速
2026年春节假期临近为更好地保障新能源汽车充电需求内蒙古在运营高速公路服务区共设置充电枪1827枪大家可以通过高德、百度APP"蒙马充电"和"e路畅通"小程序查询高速公路服务区充电设施…

2026-02-08

苹果iOS 26.4将至:Siri架构大升级,多项新功能或4月随系统上线
苹果软件工程主管 Craig Federighi 透露,这种端到端的重构使 Siri 的升级幅度超越了最初 iOS 18发布时的承诺。本次更新并未将 Siri 转化为完全体的聊天机器人,不支持长时记忆与多…

2026-02-07

千问免单卡有效期延长5天!
近日,阿里千问推出的30亿春节请客计划引发了广泛关注。2月6日,该活动正式上线后迅速吸引了大量用户参与,然而由于参与人数过多,千问的服务器一度出现卡顿,部分用户反馈活动页面无法正常打开,甚至在支付环节遇到问题。

2026-02-07