Meta釋出最新的開源大型語言模型Meta Llama 3
· 2024-04-19

Meta指出Llama 3 8B版本在MMLU、GPQA、HumanEval、GSM-8K或MATH等基準測試上,大幅勝出Google Gemma 7B-it及Mistral AI Mistral 7B Instruct這二款開源模型

_Meta

Llama 3不僅追求基準測試上的效能,也希望能最佳化其真實場景的應用,因而打造出一個新的人類評估集,涵蓋了12個關鍵應用的1,800個提示,包括尋求建議、腦力激盪、分類、封閉式問答、撰寫程式碼、創意寫作、萃取、塑造角色、開放式問答、推論、改寫與概要等,結果發現Llama 3 70B在大多數情況下的表現,都凌駕了Claude Sonnet、Mistral Medium及GPT-3.5。

_Meta

Llama 3使用了一個具備12.8萬個Token詞彙的標記器,可更有效地將語言編碼,以提高模型對文本的理解,另也藉由分組查詢注意力(Grouped Query Attention,GQA),以長達8,192個Token的序列來訓練模型,同時使用Mask來確保模型的注意力不越界,以改善推論成效。

此外,Llama 3是在超過15T個Token的資料上進行預訓練,用來訓練的資料集是Llama 2所使用的7倍大,當中所包含的程式碼是之前的4倍多,而且有超過5%的訓練內容來自於非英文的資料,這些資料是由逾30種語言組成。Meta也坦承,其它語言在Llama 3上的表現無法與英文一致。

為了訓練最大的Llama 3模型,Meta結合了3種平行化策略,包括資料平行化、模型平行化與管道平行化,有助於將模型訓練的運算分散到不同的運算設備上,因而在1.6萬個GPU上進行訓練時,每個GPU的利用率超過400 TFLOPS,亦於兩個客製化、具備2.4萬個GPU的叢集上進行訓練,也為了最大化GPU的利用率,打造先進的訓練堆疊以自動化錯誤的偵測、處理與維護。

再加上改善了硬體可靠性與偵測機制,發展更具彈性的儲存系統,而令Llama 3模型的訓練效率比Llama 2提高了3倍。

Llama 3模型很快就會登上各大雲端平臺,或是透過模型API供應商釋出,Meta將會繼續改善Llama 3,也正在開發最大的、具備4,000億個參數的Llama 3模型,儘管現在的Llama 3 400B還未完成,但Meta已公布它現有的基準測試成績供外界一睹為快。

熱門文章
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
首頁
遊戲
合作
發現
我的