智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

小米发布开源VLA模型Xiaomi-Robotics-0 兼具视觉语言理解与高性能实时执行能力

2026-02-12来源:快讯编辑:瑞雪

小米公司今日正式发布开源视觉语言动作(VLA)模型Xiaomi-Robotics-0,该模型凭借47亿参数规模,在视觉语言理解与实时动作执行领域实现突破性进展。通过创新的"感知-决策-执行"闭环架构,模型在仿真测试与真实机器人任务中均展现出卓越性能,尤其在处理复杂物理交互任务时表现出色,现已开放技术文档、源代码及模型权重供全球开发者使用。

该模型采用Mixture-of-Transformers(MoT)混合架构,由视觉语言大脑(VLM)与动作执行小脑(Action Expert)两大核心模块构成。VLM模块基于多模态大模型构建,可精准解析人类模糊指令(如"整理桌面"),并从高清视觉输入中提取空间关系信息;Action Expert模块则通过多层Diffusion Transformer(DiT)架构,创新性采用"动作块"生成机制,配合流匹配技术确保动作序列的平滑性与精准度。这种设计使模型既能理解复杂语义,又能实现高频动作控制。

针对传统VLA模型在动作学习过程中容易丧失理解能力的问题,研发团队提出混合训练策略:在预训练阶段同步输入多模态数据与动作数据,使模型在掌握操作技能的同时,保持物体检测、视觉问答等认知能力。具体训练流程分为三个阶段:首先通过Action Proposal机制强制VLM预测动作分布,实现特征空间与动作空间的对齐;随后冻结VLM参数,专项训练DiT模块学习从噪声中恢复精准动作序列;最后通过目标任务后训练优化整体性能。

为解决推理延迟导致的动作断层问题,团队开发异步推理模式,使模型推理与机器人运行解耦,通过Clean Action Prefix机制将前序动作作为输入,确保动作轨迹的时间连续性。同时引入Λ-shape Attention Mask特殊注意力掩码,强制模型优先处理当前视觉反馈,有效抑制历史惯性影响,使机器人在环境突变时能快速调整动作策略。这些技术创新使模型在消费级显卡上即可实现实时推理,动作响应延迟降低60%以上。

在性能验证方面,Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大仿真基准测试中,包揽全部30项评测指标的第一名,刷新多项SOTA纪录。真实场景测试中,搭载该模型的双臂机器人在积木拆解与毛巾折叠任务中,展现出卓越的手眼协调能力,能精准处理刚性物体与柔性织物的物理特性差异。特别在多模态理解测试中,模型在具身交互相关基准上的表现显著优于同类模型,验证了其视觉语言理解与动作控制的协同优化效果。

目前,小米已通过GitHub与Hugging Face平台开放模型资源,包括完整技术文档、训练代码及预训练权重。开发者可访问https://xiaomi-robotics-0.github.io获取详细资料,或通过https://github.com/XiaomiRobotics/Xiaomi-Robotics-0直接参与项目开发。此次开源将推动具身智能技术在机器人、智能制造等领域的落地应用,为全球研究者提供高性能的基础模型框架。

三星电子向高通出样LPDDR6X内存 或助力2027年AI250推理方案升级
IT之家 2 月 12 日消息,韩媒 the bell 本月 10 日报道称,三星电子已向高通提供了 LPDDR6X内存的样品。根据行业消息,高通有望在 2027 年的 AI250 推理解决方案中搭载该存储…

2026-02-12

华为手机用户必看!实测5款免费去水印工具,这两款小程序效果绝了
- 速度更离谱:30秒的视频,粘贴链接后差不多0.1秒就出结果了…我一度怀疑是不是没处理,结果下载下来一看,水印真没了。 2. 隐私安全:选择工具时一定要看是否有安全认证(比如ISO27001),小青去水印…

2026-02-12

2026快手去水印难题终结!3款微信小程序免费高效,轻松搞定无水印视频
全能首选:无损去水印精灵(综合最强,闭眼冲); 实况/稳定:红枣去水印(快手动态视频+批量处理);日常轻量:火云去水印(碎片化保存+多功能); 这3款微信小程序都是2026年实测Top3,免费无套路,适配…

2026-02-12

家电ETF博时159730开盘微跌0.18% 美的格力等重仓股涨跌互现引关注
来源:新浪基金∞工作室 2月12日,家电ETF博时(159730)开盘跌0.18%,报1.115元。家电ETF博时(159730)重仓股方面,三花智控开盘跌0.31%,格力电器跌0.21%,美的集团跌0.29…

2026-02-12

百度萝卜快跑牵手优步进军迪拜,自动驾驶全球化布局再添强劲动力
根据花旗的分析,未来百度有望与更多国际企业建立合作,进一步将自动驾驶服务推广至更多海外城市。 迪拜作为中东首个实现自动驾驶出行服务的城市,其成功经验将为后续拓展其他国际市场提供重要借鉴。分析师指出,随着自动…

2026-02-12

苹果iOS 26.3更新亮点:支持端到端加密RCS消息、iPhone转安卓更便捷
在 iOS 26.3 更新中,苹果升级 Messages 应用,新增支持端到端加密 RCS 消息,扩展了与 Android用户发送短信时的隐私保护。 苹果在 iOS 26.3 新增“通知转发”(Notif…

2026-02-12

科大讯飞发布星火X2大模型 推理性能提升50% 星辰Agent平台智能体超130万
讯飞方面介绍,星火X2在实现通用能力全面升级的同时,更加专注于教育、医疗、汽车、智能体等高专业性、高体验性场景,致力于为这些领域提供领先、可靠的技术方案与支撑。当前智能体数量已经超过130万,作为企业级智能…

2026-02-12