

Anthropic更新中阶模型Claude 3.5 Sonnet,打造了一个API让Claude能够感知电脑界面并与之交互
图片截取自Anthropic官方网页
AI模型开发业者Anthropic周二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5 Sonnet首度开放用户测试其电脑操作能力,也特别改善了代码撰写及工具使用任务,并宣布将在10月底发布Claude 3.5 Haiku。
Claude Sonnet为Anthropic所开发的中阶模型,着重在取得智力与速度的平衡,Claude Haiku则是最小也最低级的模型,主打即时回应,而最大的模型Claude Opus则是用来处理更复杂的任务,目前Anthropic仅发表Sonnet 3.5及Haiku 3.5,并未提及Opus 3.5。
为了训练Claude使用电脑,Anthropic打造了一个API以让Claude能够感知电脑界面并与之交互,开发人员即可集成该API,要求Claude将指令(例如:利用我电脑上的数据来填入表格)转成电脑命令(检查试算表,移动光标以打开浏览器,导航至最相关的页面,以及填入表格等)。
Anthropic说,现代的大量工作都是通过电脑进行的,令AI能够像人类一样与电脑交互,将解锁这一代AI助手无法处理的大量应用。这几年AI有许多重要的发展,像是运行复杂逻辑推理的能力,以及查看与理解图像的能力,而下一个重要领域则是使用电脑,让AI模型可直接按照指示使用各种软件,而不必再通过特制的软件与电脑交互。开发人员可利用此一功能来自动化重复的流程,建置与测试软件,或是运行诸如研究等开放式任务。
有一个OSWorld标准是用来评测模型使用电脑的能力,在理解屏幕截屏(Screenshot)上,Claude 3.5 Sonnet取得了14.9%的成绩,虽然尚远不及人类水准(70~75%),却已高于第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以运行更多的步骤,Claude 3.5 Sonnet还能达到22%。
不过,Anthropic坦承Claude目前操作电脑的能力并不完美,人们可以轻松运行的滚动、拖曳或缩放对Claude而言都是挑战,在实验中,它还停止了正在长时间运作的屏幕录制,导致所有内容都不见。
目前包括Asana、Canva、Cognition、DoorDash、Replit与The Browser Company都已在测试Claude 3.5 Sonnet的电脑运行能力,其中,在线程序开发平台Replit利用它来建置Replit Agent的新功能,可在开发人员建置应用程序的过程中,自动检查并评估应用程序的表现。
除了操作电脑的能力之外,Claude 3.5 Sonnet在许多评测都有长足的进步,包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等,除了MATH略逊Gemini 1.5 Pro之外,其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。
在与撰写程序相关的HummaEval及SWE-bench Verified评测中,Claude 3.5 Sonnet分别夺得了93.7%及49%的成绩,高过前一个版本的88.1%与40.6%。
另一个TAU-bench是用来测试AI代理工具于真实世界场景中的表现,衡量能否处理复杂且多步骤的任务,并与用户进行自然对话,Claude 3.5 Sonnet在零售领域的表现达到69.2%,在航空领域的表现为46%,高于前一版的62.6%与36%。
至于速度最快的Claude 3.5 Haiku特别擅长撰写代码,它在HummaEval的得分为88.1%,而在评估解决实际软件问题能力的SWE-bench Verified上得分亦有40.6%。
Anthropic表示,Claude 3.5 Haiku具备低延迟,更好的指令遵循能力,以及更准确的工具使用,非常适合面向使用者的产品、专门的子代理任务,以及从大量数据生成个人体验的服务,例如购买历史纪录、定价或库存纪录等。
不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可借由API、Amazon Bedrock及Google Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上线,而且初期仅支持文本,之后才会支持图像输入。