微軟開發純視覺GUI解析工具OmniParser,強化AI跨平臺操作能力
支付動態 · 2024-11-05

微軟OmniParser運用純視覺解析技術,讓多模態人工智慧能精確辨識和操作不同平臺的GUI元素,提升跨平臺自動化的能力,滿足日益增加的數位助理和自動化需求

微軟人工智慧純視覺GUI代理程式OmniParser,能夠提升多模態人工智慧模型,諸如GPT-4V在多平臺環境的互動準確性和效率。OmniParser仰賴純視覺技術,將螢幕截圖轉換為結構化資料,並運用語義標註技術,使得人工智慧能夠自動辨識和操作GUI中的互動元素,替人機互動建立基礎。

諸如GPT-4V等多模態人工智慧模型,在圖像和文字方面展現了強大的處理能力,但是要應用在操作GUI,目前的多模態模型麵臨一些挑戰。模型辨識GUI中可互動元素,像是按鈕、圖標、可點擊連結上仍存在技術瓶頸,模型可能難以辨識每個互動元素的功能,或是無法在複雜的介面中,執行正確的動作。

針對這些操作問題,微軟開發了OmniParser,這是一個純視覺解析的工具。該工具透過互動區域偵測和語意標註技術兩個步驟流程,大幅度提升GPT-4V操作GUI的能力。OmniParser偵測模型可以能夠準確辨識介面上互動元素,並標記可點擊的區域,由於偵測模型經過大量熱門網頁資料訓練,即便是在複雜介面也能明確定位互動區域。

另外,OmniParser還結合光學字元辨識和語義標註模型,能夠對GUI元素提供語義描述,協助人工智慧模型理解每個元素的功能和作用,在指令生成過程提供精準的操作建議。

OmniParser讓人工智慧能夠在多平臺環境精確地執行互動操作,其無依賴性和高精確度的設計,使OmniParser成為客服、自動化資料處理等需大量重複操作工作的理想工具。藉由其跨平臺的能力,OmniParser不需要仰賴HTML或是其他後設資料,即便在不同作業系統也可有效運作。

在數位助理和自動化操作需求日益增加的當前,不少人工智慧公司也投入GUI操作的研發,強化人工智慧在人機互動的能力。Anthropic近期也針對多模態人工智慧模型Claude 3.5 Sonnet開發了專屬API,使該模型能夠感知並操作電腦介面,將模型指令轉換成為具體的電腦操作指令,執行諸如開啟應用程式和填寫表格等複雜任務。

隨著GUI解析技術的成熟,人工智慧在跨平臺操作中的靈活性將大幅提升,進一步擴展自動化任務的應用可能性。

熱門文章
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
首頁
遊戲
合作
發現
我的