智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 游戏机

微软开源OmniParser,GPT-4V秒解析屏幕截图,智能新突破!

2024-10-29来源:ITBEAR编辑:瑞雪

微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。

在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。

微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。

小米汽车SU7 Ultra量产版:合法上路无压力!
鞭牛士10月29日消息,小米汽车昨日晚继续发布答网友问(第七十四集),对将在今晚发布的小米SU7Ultra量产版车型的一些问题进行解答。针对小米SU7Ultra是否能合法上路的问题,小米汽车官方回答道,小米S…

2024-10-29

Meta密谋新动作:人工智能搜索引擎开发中!
鞭牛士报道,10月28日消息,据外电报道,当MetaPlatforms试图跟上OpenAI在人工智能开发方面的步伐时,这家Facebook所有者正在开发种搜索引擎, 该搜索引擎会抓取网络数据,为使用其Met…

2024-10-29

特斯拉三季度全球交付46.3万,再创新高!
快科技10月28日消息,特斯拉在2024年第三季度实现了全球交付46.3万辆电动车,创下2024年季度交付量的新纪录。根据官方数据,ModelY在中国1至9月期间成为最畅销的车型;在欧洲,ModelY在9月份…

2024-10-29