Anthropic更新Claude 3.5 Sonnet,添加操作电脑能力
支付動態 · 2024-10-23

Anthropic更新中阶模型Claude 3.5 Sonnet,打造了一个API让Claude能够感知电脑界面并与之交互

图片截取自Anthropic官方网页

AI模型开发业者Anthropic周二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5 Sonnet首度开放用户测试其电脑操作能力,也特别改善了代码撰写及工具使用任务,并宣布将在10月底发布Claude 3.5 Haiku。

Claude Sonnet为Anthropic所开发的中阶模型,着重在取得智力与速度的平衡,Claude Haiku则是最小也最低级的模型,主打即时回应,而最大的模型Claude Opus则是用来处理更复杂的任务,目前Anthropic仅发表Sonnet 3.5及Haiku 3.5,并未提及Opus 3.5。

为了训练Claude使用电脑,Anthropic打造了一个API以让Claude能够感知电脑界面并与之交互,开发人员即可集成该API,要求Claude将指令(例如:利用我电脑上的数据来填入表格)转成电脑命令(检查试算表,移动光标以打开浏览器,导航至最相关的页面,以及填入表格等)。

Anthropic说,现代的大量工作都是通过电脑进行的,令AI能够像人类一样与电脑交互,将解锁这一代AI助手无法处理的大量应用。这几年AI有许多重要的发展,像是运行复杂逻辑推理的能力,以及查看与理解图像的能力,而下一个重要领域则是使用电脑,让AI模型可直接按照指示使用各种软件,而不必再通过特制的软件与电脑交互。开发人员可利用此一功能来自动化重复的流程,建置与测试软件,或是运行诸如研究等开放式任务。

有一个OSWorld标准是用来评测模型使用电脑的能力,在理解屏幕截屏(Screenshot)上,Claude 3.5 Sonnet取得了14.9%的成绩,虽然尚远不及人类水准(70~75%),却已高于第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以运行更多的步骤,Claude 3.5 Sonnet还能达到22%。

不过,Anthropic坦承Claude目前操作电脑的能力并不完美,人们可以轻松运行的滚动、拖曳或缩放对Claude而言都是挑战,在实验中,它还停止了正在长时间运作的屏幕录制,导致所有内容都不见。

目前包括Asana、Canva、Cognition、DoorDash、Replit与The Browser Company都已在测试Claude 3.5 Sonnet的电脑运行能力,其中,在线程序开发平台Replit利用它来建置Replit Agent的新功能,可在开发人员建置应用程序的过程中,自动检查并评估应用程序的表现。

除了操作电脑的能力之外,Claude 3.5 Sonnet在许多评测都有长足的进步,包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等,除了MATH略逊Gemini 1.5 Pro之外,其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。

在与撰写程序相关的HummaEval及SWE-bench Verified评测中,Claude 3.5 Sonnet分别夺得了93.7%及49%的成绩,高过前一个版本的88.1%与40.6%。

另一个TAU-bench是用来测试AI代理工具于真实世界场景中的表现,衡量能否处理复杂且多步骤的任务,并与用户进行自然对话,Claude 3.5 Sonnet在零售领域的表现达到69.2%,在航空领域的表现为46%,高于前一版的62.6%与36%。

至于速度最快的Claude 3.5 Haiku特别擅长撰写代码,它在HummaEval的得分为88.1%,而在评估解决实际软件问题能力的SWE-bench Verified上得分亦有40.6%。

Anthropic表示,Claude 3.5 Haiku具备低延迟,更好的指令遵循能力,以及更准确的工具使用,非常适合面向使用者的产品、专门的子代理任务,以及从大量数据生成个人体验的服务,例如购买历史纪录、定价或库存纪录等。

不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可借由APIAmazon Bedrock及Google Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上线,而且初期仅支持文本,之后才会支持图像输入。

热门文章
BETFAIR 网络攻击80万用户资料泄露
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
首页
游戏
合作
发现
我的