Anthropic發表宣稱可擊敗OpenAI GPT-4與Google Gemini 1.0 Ultra的Claude 3模型
· 2024-03-06

Anthropic新一代Claude 3模型家族涵蓋低階的Haiku、中階的Sonnet,以及最強大的Opus,Anthropic強調Opus在多項基準測試的效能,超越OpenAI與Google的頂級大型語言模型

Anthropic在2021年由曾擔任OpenAI研究副總裁的Dario Amodei,以及其妹妹、同樣身為OpenAI資深員工的Daniela Amodei共同創立,是OpenAI最大的競爭對手之一,而OpenAI與微軟在資金及服務上的緊密關係,使得Anthropic成為其它科技巨頭競逐的對象,包括Google在2022年注資3億美元取得10%的Anthropic股份,去年底承諾加碼投資20億美元,至於Amazon也在去年宣布將挹注40億美元至Anthropic,並換得讓AWS成為Anthropic主要雲端服務供應商的交易。

Anthropic本周所發表的Claude 3模型強化了各方面的能力,涵蓋分析、預測、細緻的內容建立、程式碼生成,以及在西班牙文、日文與法文等非英文語言的對話能力;它也擁有更複雜的視覺功能,得以處理各種不同的視覺格式,包括照片、圖表、圖像與技術圖等;還可帶來近乎即時的結果,可支援即時客戶聊天、自動完成與資料汲取任務。

另一方面,過去的Claude模型經常作出不必要的拒絕,顯示它缺乏對語意的理解,最新的Claude 3則對提示表現出更細緻的理解能力,可辨識真正的傷害,明顯降低了拒絕回答無害提示的頻率。

Claude 3最受矚目的是其中的Claude 3 Opus模型在許多基準測試上,超越了OpenAI GPT-4與Google Gemini 1.0 Ultra。例如在MMLU本科水平專家知識上達到86.8%,擊敗GPT-4的86.4%與Gemini 1.0 Ultra的83.7%,研究生專家推論(GPQA)以50.4%超越OpenAI GPT-4的35.7%。其它凌駕這兩大模型的基礎測試還有基礎數學(GSM8K)、程式碼生成能力HumanEval與文字推論等。

儘管Claude 3模型初期僅支援20萬個Token的脈絡,但3種型號都可接受超過100萬個Token的輸入,Anthropic將根據需求提供給需要強化處理能力的客戶。為了有效地處理冗長的上下文,這些模型需要強大的回憶能力,在評估模型記憶的「大海撈針」(Needle In A Haystack,NIAH)基準測試中,Claude 3 Opus不僅達到超過99%的準確率,在某些情況下,甚至能夠辨識出此針是否是人為插入的。

Anthropic亦標榜Claude 3模型的偏差少於先前的模型,也更擅長遵循複雜的多步驟指令,或是生成諸如JSON等格式的結構化輸出,以更輕鬆地將Claude 3模型應用在自然語言分類或情緒分析上。

Claude 3 Haiku、Claude 3 Sonnet與Claude 3 Opus各自可支援不同的應用,Claude 3 Haiku是最袖珍及最快速的模型,專為模仿人類互動的即時回應與無縫AI體驗而設計,每100萬個Token的輸入費用為0.25美元,輸出為1.25美元;Claude 3 Sonnet屬於相對均衡的模型,在智慧與速度中取得平衡,適用於企業負載及大規模的AI部署,每100萬個Token的輸入/輸出費用分別是3美元及15美元;最強大的Claude 3 Opus可處理高度複雜的任務,可帶來人類等級的理解能力,每100萬個Token的輸入/輸出費用分別是15美元與75美元

Anthropic的API現已支援Claude 3 Sonnet與Claude 3 Opus,使用者亦可透過claude.ai、Amazon Bedrock與Google Cloud的Vertex AI Model Garden使用Claude 3 Sonnet,Claude 3 Opus目前則僅開放Claude Pro訂閱用戶使用。至於Claude 3 Haiku也會在近期上市。

_Anthropic

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
首頁
遊戲
合作
發現
我的