智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

北大智元联合发布OmniManip:视觉语言模型赋能机器人高精度操作

2025-01-23来源:ITBEAR编辑:瑞雪

在探索具身智能领域的道路上,如何将视觉语言基础模型(VLMs)应用于机器人以实现通用操作,一直是科研人员关注的焦点。这一目标的实现面临两大核心挑战:VLMs缺乏精确的3D理解能力,以及难以输出低层次的机器人动作。

传统的VLMs主要通过对比学习范式训练,以2D图像和文本作为输入,这限制了它们在3D空间中的理解和应用能力。同时,尽管将VLMs在机器人数据上进行微调以构建视觉-语言-动作(VLA)模型被视为一种有潜力的解决方案,但高昂的数据收集成本和模型的泛化能力限制,使得这一方案仍面临诸多挑战。

为了克服这些难题,北京大学与智元机器人团队携手提出了OmniManip架构。这一架构基于以对象为中心的3D交互基元,成功地将VLMs的高层次推理能力转化为机器人的低层次高精度动作。OmniManip通过引入VLM规划和机器人执行的双闭环系统设计,有效解决了大模型幻觉问题和真实环境操作的不确定性,实现了操作性能的显著提升。

OmniManip的关键设计包括基于VLMs的任务解析、以物体为中心的交互基元作为空间约束、闭环VLM规划和闭环机器人执行。利用VLMs强大的常识推理能力,OmniManip能够将任务分解为多个结构化阶段,每个阶段都明确指定了主动物体、被动物体和动作类型。通过3D基座模型生成任务相关物体的3D模型和规范化空间,OmniManip使得VLMs能够直接在该空间中采样3D交互基元,作为动作的空间约束,从而优化求解出主动物体在被动物体规范坐标系下的目标交互姿态。

在闭环VLM规划阶段,OmniManip将目标交互姿态下的主动/被动物体渲染成图像,由VLMs进行评估与重采样,实现VLMs对自身规划结果的闭环调整。而在闭环机器人执行阶段,通过物体6D姿态跟踪器实时更新主动/被动物体的位姿,并将其转换为机械臂末端执行器的操作轨迹,实现闭环执行。

OmniManip具备通用泛化能力,不受特定场景和物体的限制。这一特性使得OmniManip能够被广泛应用于数字资产自动标注/合成管道等领域,实现大规模的机器人轨迹自动采集。目前,研究团队已经开源了泛化操作大规模数据集和对应的仿真评测基准,为相关领域的进一步研究提供了有力支持。

在智元机器人方面,其量产的第1000台通用具身机器人已于本月正式下线。这批机器人中包括731台双足人形机器人(远征A2/灵犀X1)和269台轮式通用机器人(远征A2-D/A2-W)。这一成果不仅展示了智元机器人在机器人量产方面的实力,也进一步验证了OmniManip架构的有效性和实用性。

智元机器人的发展也备受关注。据悉,以“天才少年”身份加入华为的稚晖君已于2022年底宣布离职,并创业成立了智元机器人。2024年9月3日,智元机器人完成了A++++++轮融资,估值已超过70亿元。这一轮融资得到了包括北汽、上汽、比亚迪在内的国内汽车巨头的支持,为智元机器人的未来发展注入了强劲动力。

华为顶级旗舰价格大跳水,16GB+512GB直降2100元,为新机让路
这段时间虽然登场了很多新旗舰,但阿维觉得挺遗憾的,因为绝大多数新旗舰都只是常规升级,单纯为了启用第五代骁龙8至尊版和天玑9500,在这种情况下,甚至就连小米17 Pro系列上并不算多大创新的背屏也成为了大家津…

2025-11-15

W45周手机销量榜:苹果蝉联五周冠军,小米稳居国产首位,vivo紧随其后
每到周五可能大家都在等行业人士给出的最新一周国内智能手机领域排行榜,因为从周榜就可以分析出各品牌目前在国内生存状况。数据显示苹果还是国内排名第一的品牌,不过市场份额又滑落了一个百分点,这已经是苹果连续五周国内…

2025-11-14

高通跃龙IQ-X系列工业级PC处理器发布,为工业自动化注入AI新动力
高通跃龙 IQ-X 系列为工业自动化提供了 AI 基础设施,能够实现 AI模型移植,以及面向预测性维护、状态监测和缺陷检测等关键用例的应用开发。 该平台支持Qt、CODESYS等工业软件工具,通过高通AI软…

2025-11-14

​华为nova 15系列或用2.5D护眼直屏,标准版中框材质有变,12月难见其踪​
【CNMO科技消息】11月13日,有数码博主爆料称,华为nova 15系列大概率将采用全切2.5D定制护眼直屏,且中框材质并非全系为金属。 据CNMO了解,相比传统2D屏幕,2.5D屏幕在工艺复杂度上更胜一筹…

2025-11-13

天才少女罗福莉加盟小米MiMo团队
近日,一则科技圈的重磅消息引发广泛关注:曾参与DeepSeek-V2大模型研发的“天才少女”罗福莉,正式宣布加入小米Xiaomi MiMo团队,并表示将“全力奔赴心中的AGI(通用人工智能)”。这一消息不仅证实了此前关于她跳槽小米的传闻,更透露出小米在AGI领域的战略布局。

2025-11-13

OPPO Reno 15系列11月17日发布,首发“出圈实况拼图”功能,开启影像创作新体验
【CNMO科技消息】11月12日,OPPO首席产品官刘作虎发文称,实况照片是这个时代移动影像最动人的发明之一,并宣布OPPO Reno15系列将首发“出圈实况拼图”功能。 据CNMO了解,OPPO Reno…

2025-11-12

1899元的iPhone“袜子包”:时尚碰撞下,苹果的配件新探索
而如果你将三宅一生和苹果做个对比,会发现一种存在于潜意识上的共性:超薄手机谁都能制作,iPhone Air的精妙之处不在于薄,而在于通过超高级程度的高原主板,将机身解放出来;同理,A-POC 的意义也不在…

2025-11-12

纯eSIM版iPhone 17 Pro续航实测:综合使用时长多出49分钟,多场景表现更优
为验证 eSIM 版和实体卡槽版本在不同使用场景中的表现,GSMArena 对其进行了标准化电池续航测试。 在具体项目中,eSIM版机型在通话测试中取得 24 小时 1 分钟的成绩,比实体卡版本提升约 …

2025-11-11

双11手机选购指南:这6款“续航王者”16+512GB版,轻松应对五年使用需求
红魔11Pro是努比亚推出的电竞游戏手机,内置8000mAh单电芯第三代牛魔王大电池,续航时间长达2天2夜,在测试中也以9:06的成绩超过所有对手,排名第一。一加15内置7300mAh电池,与OPPO …

2025-11-11

中科院团队突破难题:直接键合解键合制备高质量二维半导体叠层
原子力显微镜、扫描透射电子显微镜、拉曼光谱、X射线衍射、低能电子衍射和二次谐波等表征结果显示,所制备的二维半导体叠层具有高质量、超洁净表面/界面以及晶圆级均匀的层间转角。 除进行二维半导体叠层制备,直接键合…

2025-11-11