微软开发纯视觉GUI解析工具OmniParser,强化AI跨平台操作能力
支付動態 · 2024-11-05

微软OmniParser运用纯视觉解析技术,让多模态人工智能能精确辨识和操作不同平台的GUI元素,提升跨平台自动化的能力,满足日益增加的数位助理和自动化需求

微软人工智能纯视觉GUI代理程序OmniParser,能够提升多模态人工智能模型,诸如GPT-4V在多平台环境的交互准确性和效率。OmniParser仰赖纯视觉技术,将屏幕截屏转换为结构化数据,并运用语义标注技术,使得人工智能能够自动辨识和操作GUI中的交互元素,替人机交互创建基础。

诸如GPT-4V等多模态人工智能模型,在图像和文本方面展现了强大的处理能力,但是要应用在操作GUI,目前的多模态模型面临一些挑战。模型辨识GUI中可交互元素,像是按钮、图标、可点击链接上仍存在技术瓶颈,模型可能难以辨识每个交互元素的功能,或是无法在复杂的界面中,运行正确的动作。

针对这些操作问题,微软开发了OmniParser,这是一个纯视觉解析的工具。该工具通过交互区域侦测和语意标注技术两个步骤流程,大幅度提升GPT-4V操作GUI的能力。OmniParser侦测模型可以能够准确辨识界面上交互元素,并标记可点击的区域,由于侦测模型经过大量热门网页数据训练,即便是在复杂界面也能明确定位交互区域。

另外,OmniParser还结合光学字符辨识和语义标注模型,能够对GUI元素提供语义描述,协助人工智能模型理解每个元素的功能和作用,在指令生成过程提供精准的操作建议。

OmniParser让人工智能能够在多平台环境精确地运行交互操作,其无依赖性和高精确度的设计,使OmniParser成为客服、自动化数据处理等需大量重复操作工作的理想工具。借由其跨平台的能力,OmniParser不需要仰赖HTML或是其他元数据,即便在不同操作系统也可有效运作。

在数位助理和自动化操作需求日益增加的当前,不少人工智能公司也投入GUI操作的研发,强化人工智能在人机交互的能力。Anthropic近期也针对多模态人工智能模型Claude 3.5 Sonnet开发了专属API,使该模型能够感知并操作电脑界面,将模型指令转换成为具体的电脑操作指令,运行诸如打开应用程序和填写表格等复杂任务。

随着GUI解析技术的成熟,人工智能在跨平台操作中的灵活性将大幅提升,进一步扩展自动化任务的应用可能性。

热门文章
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
英国确认各垂直行业的赌博税税率
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
首页
游戏
合作
发现
我的