阿里巴巴近日正式推出千问具身智能大模型Qwen-Robot系列,包含三大核心模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav以及世界模型Qwen-RobotWorld。这一系列模型通过赋予机器人灵活操作、自主导航和智能决策能力,为具身智能领域带来突破性进展,三者可独立部署或协同运行,形成完整的机器人智能解决方案。
作为具身智能的基础架构,VLA(视觉-语言-动作)模型通过整合视觉感知、语言理解和动作决策,使机器人具备理解环境并执行操作的能力。传统VLA模型在跨机器人、跨场景应用时存在性能衰减问题,而Qwen-RobotManip创新性地采用80维统一动作表征系统,为不同硬件设备构建通用"肢体语言"。该模型通过训练机器人掌握基础物理规律与动作逻辑,使其动作执行从机械模仿升级为自主推理,仅需少量反馈即可快速适配新硬件,显著提升跨平台稳定性。
在移动导航领域,Qwen-RobotNav基于Qwen-VL框架构建,创新性地将语言指令导航、目标搜索、自动驾驶等五大任务模块统一整合。该模型突破传统导航系统需要人工切换任务模式的局限,能够根据复杂场景自动调整策略,实现从室内服务到户外运输的全场景覆盖。例如在物流场景中,机器人可同时处理路径规划、障碍避让和货物抓取等多重任务,大幅提升作业效率。
世界模型Qwen-RobotWorld则聚焦于环境预测与决策优化,通过构建物理规律仿真系统,可精准推演机器人未来动作轨迹与环境交互结果。该模型使机器人具备"预判"能力,在执行任务前就能模拟不同操作方案的效果,从而选择最优路径。在动态环境测试中,搭载该模型的机器人展现出强大的环境适应能力,能够实时调整动作策略应对突发状况。

