Anthropic更新Claude 3.5 Sonnet,新增操作電腦能力
支付動態 · 2024-10-23

Anthropic更新中階模型Claude 3.5 Sonnet,打造了一個API讓Claude能夠感知電腦介面並與之互動

圖片擷取自Anthropic官方網頁

AI模型開發業者Anthropic週二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5 Sonnet首度開放使用者測試其電腦操作能力,也特別改善了程式碼撰寫及工具使用任務,並宣佈將在10月底釋出Claude 3.5 Haiku。

Claude Sonnet為Anthropic所開發的中階模型,著重在取得智力與速度的平衡,Claude Haiku則是最小也最低階的模型,主打即時回應,而最大的模型Claude Opus則是用來處理更複雜的任務,目前Anthropic僅發表Sonnet 3.5及Haiku 3.5,並未提及Opus 3.5。

為了訓練Claude使用電腦,Anthropic打造了一個API以讓Claude能夠感知電腦介面並與之互動,開發人員即可整合該API,要求Claude將指令(例如:利用我電腦上的資料來填入表格)轉成電腦命令(檢查試算表,移動遊標以開啟瀏覽器,導航至最相關的頁面,以及填入表格等)。

Anthropic說,現代的大量工作都是透過電腦進行的,令AI能夠像人類一樣與電腦互動,將解鎖這一代AI助手無法處理的大量應用。這幾年AI有許多重要的發展,像是執行複雜邏輯推理的能力,以及檢視與理解圖像的能力,而下一個重要領域則是使用電腦,讓AI模型可直接按照指示使用各種軟體,而不必再透過特製的軟體與電腦互動。開發人員可利用此一功能來自動化重複的流程,建置與測試軟體,或是執行諸如研究等開放式任務。

有一個OSWorld標準是用來評測模型使用電腦的能力,在理解螢幕截圖(Screenshot)上,Claude 3.5 Sonnet取得了14.9%的成績,雖然尚遠不及人類水準(70~75%),卻已高於第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以執行更多的步驟,Claude 3.5 Sonnet還能達到22%。

不過,Anthropic坦承Claude目前操作電腦的能力並不完美,人們可以輕鬆執行的滾動、拖曳或縮放對Claude而言都是挑戰,在實驗中,它還停止了正在長時間運作的螢幕錄製,導致所有內容都不見。

目前包括Asana、Canva、Cognition、DoorDash、Replit與The Browser Company都已在測試Claude 3.5 Sonnet的電腦執行能力,其中,線上程式開發平臺Replit利用它來建置Replit Agent的新功能,可在開發人員建置應用程式的過程中,自動檢查並評估應用程式的表現。

除了操作電腦的能力之外,Claude 3.5 Sonnet在許多評測都有長足的進步,包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等,除了MATH略遜Gemini 1.5 Pro之外,其它評測都勝過Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o與GPT-4o mini。

在與撰寫程式相關的HummaEval及SWE-bench Verified評測中,Claude 3.5 Sonnet分別奪得了93.7%及49%的成績,高過前一個版本的88.1%與40.6%。

另一個TAU-bench是用來測試AI代理工具於真實世界場景中的表現,衡量能否處理複雜且多步驟的任務,並與使用者進行自然對話,Claude 3.5 Sonnet在零售領域的表現達到69.2%,在航空領域的表現為46%,高於前一版的62.6%與36%。

至於速度最快的Claude 3.5 Haiku特別擅長撰寫程式碼,它在HummaEval的得分為88.1%,而在評估解決實際軟體問題能力的SWE-bench Verified上得分亦有40.6%。

Anthropic表示,Claude 3.5 Haiku具備低延遲,更好的指令遵循能力,以及更準確的工具使用,非常適合面向使用者的產品、專門的子代理任務,以及從大量資料生成個人體驗的服務,例如購買歷史紀錄、定價或庫存紀錄等。

不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可藉由APIAmazon Bedrock及Google Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上線,而且初期僅支援文字,之後才會支援圖像輸入。

熱門文章
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
首頁
遊戲
合作
發現
我的