智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

智谱技术开源CogAgent-9B模型,赋能AI智能体精准“解读”GUI界面

2024-12-27来源:ITBEAR编辑:瑞雪

近日,智谱技术团队在官方公众号上宣布了一项重大进展,正式开源了名为CogAgent-9B-20241220的基座模型。这款模型是基于GLM-4V-9B进行训练的,专为智能体(Agent)任务设计,具有极高的实用价值。

CogAgent-9B-20241220的最大特点是其独特的输入方式。与以往需要HTML等文本表征的模型不同,它仅需屏幕截图作为输入,便能根据用户指定的任意任务,结合历史操作,精准预测下一步的GUI(图形用户界面)操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机、车机设备等基于GUI交互的各类场景。

相较于去年12月开源的第一版CogAgent模型,新版本在多个方面实现了显著提升。在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面,CogAgent-9B-20241220均展现出了卓越的性能。它还支持中英文双语的屏幕截图和语言交互,进一步拓宽了其应用范围。

CogAgent的输入简洁明了,仅包含三部分:用户的自然语言指令、已执行的历史动作记录和GUI截图。无需任何文本形式表征的布局信息或附加元素标签,这使得模型的输入处理更加高效和便捷。

CogAgent的输出则涵盖了四个方面,包括思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。其中,思考过程部分显式输出了模型理解GUI截图和决定下一步操作的思考过程,包括状态和计划两部分,输出内容可通过参数进行控制。自然语言形式的动作描述被加入历史操作记录,便于模型理解已执行的动作步骤。结构化描述则以类似函数调用的形式,描述了下一步操作及其参数,便于端侧应用解析并执行。

在动作空间方面,CogAgent包含了GUI操作和拟人行为两类。GUI操作是基础动作,如左键单击、文本输入等;而拟人行为则是高级动作,如应用启动、调用语言模型等。模型还对下一步动作的敏感性进行了判断,将动作分为“一般操作”和“敏感操作”两类,后者指可能带来难以挽回后果的动作。

为了验证CogAgent-9B-20241220的性能,智谱技术团队在多个数据集上进行了测试,并与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型进行了比较。结果显示,CogAgent在多个数据集上均取得了领先的结果,充分证明了其在GUI Agent领域的强大实力。

荣耀500 Pro配置揭秘:骁龙8至尊版加持 8000mAh大电池续航无忧
8000mAh的大电池相较于上一代的7200mAh也是大升级,这个容量在同档位的机型中也是相当领先的。在这波大电池普及浪潮当中,荣耀后续还有望在其他机型上使用10000mAh电池,对续航要求高的用户需要密切关…

2025-11-14

联想明年再发力!moto razr折叠机与Y700平板将携骁龙8系新平台登场
【CNMO科技消息】11月14日,有数码博主爆料称,联想明年将继续迭代拯救者Y700平板和moto razr系列折叠手机。这两款产品将搭载第五代骁龙8至尊版和第五代骁龙8移动平台,其中,Y700平板屏幕比例为…

2025-11-14

苹果屏下摄像头技术稳步推进,2027年iPhone或迎屏幕视觉体验新飞跃
苹果屏下摄像头技术的研发正按计划推进,预计将于2027年投入使用。此前有报道称,苹果将在 iPhone 18 Pro 机型上首次推出屏下面容ID 技术,而该技术预计将于一年后正式应用。 目前,苹果前置摄像头…

2025-11-13

OpenAI推出GPT-5.1系列:对话更有趣,推理更持久,个性化风格增至八种
11 月 13 日消息,OpenAI 今天(11 月 13 日)发布公告,宣布推出 GPT-5.1 系列旗舰模型,官方声称此次升级旨在“让ChatGPT 更智能,对话体验更有趣”。 IT之家援引博文介绍,此…

2025-11-13

高通“一体双生”双旗舰战略持续推进 本月骁龙8 Gen5将亮相搭档8 Elite Gen5
【CNMO科技消息】11月12日,有数码博主爆料称,高通将长期保持“一体双生”双旗舰战略,即在同一代推出两款定位不同的旗舰级SoC。该博主表示,骁龙8 Gen5移动平台的安兔兔跑分高于骁龙8至尊版。 据CN…

2025-11-13

专访时空壶田力:AI翻译耳机竞争激烈,以重构交流系统突围未来可期
“巨头的逻辑是在现有生态上叠加翻译功能,”时空壶创始人田力表示,“而我们的逻辑是重构整个跨语言交流系统。”因为这里面有两个部分需要共同进化,前者属于整个业界都在推进的领域,是大智能体系下的一个分支;而后者则需…

2025-11-12

双11手机战报:苹果小米vivo领跑,iPhone 17系列销量霸榜前三
11月12日,京东平台数据显示,截至11月11日23:59:59,苹果、小米、vivo分别位列销量榜单和销售额榜单前三。紧随其后的是OPPO、荣耀、华为、真我、飞利浦、三星、天语。 从销售额榜单来看,前三依…

2025-11-12

中国折叠屏手机市场回暖,2025年全球出货量或达5470万台引关注
基于前三季度的良好表现,IDC预计2025年中国折叠屏手机市场出货量将接近千万台,延续此前持续增长的趋势。 机构指出,折叠屏手机正成为智能手机市场的全新增长极,2025年全球出货量预计达5470万台,中国市…

2025-11-12

华硕提前布局库存应对存储涨价
华硕联席CEO胡书宾在近日举行的2025年第三季度法人说明会上透露,针对当前DRAM内存与NAND闪存价格持续上涨的市场环境,公司已通过优化库存策略和动态定价机制构建双重保障体系。据其介绍,本轮存储产品价格波动主要源于AI服务器需求激增与上游厂商产能调整滞后形成的供需失衡。

2025-11-12