Anthropic更新Claude 3.5 Sonnet，添加操作电脑能力-灰度官网

Anthropic更新Claude 3.5 Sonnet，添加操作电脑能力

支付動態 · 2024-10-23

Anthropic更新中阶模型Claude 3.5 Sonnet，打造了一个API让Claude能够感知电脑界面并与之交互

图片截取自Anthropic官方网页

AI模型开发业者Anthropic周二（10/22）更新了Claude 3.5 Sonnet，新版Claude 3.5 Sonnet首度开放用户测试其电脑操作能力，也特别改善了代码撰写及工具使用任务，并宣布将在10月底发布Claude 3.5 Haiku。

Claude Sonnet为Anthropic所开发的中阶模型，着重在取得智力与速度的平衡，Claude Haiku则是最小也最低级的模型，主打即时回应，而最大的模型Claude Opus则是用来处理更复杂的任务，目前Anthropic仅发表Sonnet 3.5及Haiku 3.5，并未提及Opus 3.5。

为了训练Claude使用电脑，Anthropic打造了一个API以让Claude能够感知电脑界面并与之交互，开发人员即可集成该API，要求Claude将指令（例如：利用我电脑上的数据来填入表格）转成电脑命令（检查试算表，移动光标以打开浏览器，导航至最相关的页面，以及填入表格等）。

Anthropic说，现代的大量工作都是通过电脑进行的，令AI能够像人类一样与电脑交互，将解锁这一代AI助手无法处理的大量应用。这几年AI有许多重要的发展，像是运行复杂逻辑推理的能力，以及查看与理解图像的能力，而下一个重要领域则是使用电脑，让AI模型可直接按照指示使用各种软件，而不必再通过特制的软件与电脑交互。开发人员可利用此一功能来自动化重复的流程，建置与测试软件，或是运行诸如研究等开放式任务。

有一个OSWorld标准是用来评测模型使用电脑的能力，在理解屏幕截屏（Screenshot）上，Claude 3.5 Sonnet取得了14.9%的成绩，虽然尚远不及人类水准（70~75%），却已高于第二名Cradle BAAI的7.8%，以及OpenAI GPT-4 Vision的7.7%，倘若可以运行更多的步骤，Claude 3.5 Sonnet还能达到22%。

不过，Anthropic坦承Claude目前操作电脑的能力并不完美，人们可以轻松运行的滚动、拖曳或缩放对Claude而言都是挑战，在实验中，它还停止了正在长时间运作的屏幕录制，导致所有内容都不见。

目前包括Asana、Canva、Cognition、DoorDash、Replit与The Browser Company都已在测试Claude 3.5 Sonnet的电脑运行能力，其中，在线程序开发平台Replit利用它来建置Replit Agent的新功能，可在开发人员建置应用程序的过程中，自动检查并评估应用程序的表现。

除了操作电脑的能力之外，Claude 3.5 Sonnet在许多评测都有长足的进步，包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等，除了MATH略逊Gemini 1.5 Pro之外，其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。

在与撰写程序相关的HummaEval及SWE-bench Verified评测中，Claude 3.5 Sonnet分别夺得了93.7%及49%的成绩，高过前一个版本的88.1%与40.6%。

另一个TAU-bench是用来测试AI代理工具于真实世界场景中的表现，衡量能否处理复杂且多步骤的任务，并与用户进行自然对话，Claude 3.5 Sonnet在零售领域的表现达到69.2%，在航空领域的表现为46%，高于前一版的62.6%与36%。

至于速度最快的Claude 3.5 Haiku特别擅长撰写代码，它在HummaEval的得分为88.1%，而在评估解决实际软件问题能力的SWE-bench Verified上得分亦有40.6%。

Anthropic表示，Claude 3.5 Haiku具备低延迟，更好的指令遵循能力，以及更准确的工具使用，非常适合面向使用者的产品、专门的子代理任务，以及从大量数据生成个人体验的服务，例如购买历史纪录、定价或库存纪录等。

不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可借由API、Amazon Bedrock及Google Cloud的Vertex AI存取，只是Claude 3.5 Haiku尚未上线，而且初期仅支持文本，之后才会支持图像输入。

热门文章

印度最高法院受理公益诉讼，要求全国禁封“伪装”成社交游戏的赌博平台

游戏风向