Meta釋出最新的開源大型語言模型Meta Llama 3
· 2024-04-19

Meta指出Llama 3 8B版本在MMLU、GPQA、HumanEval、GSM-8K或MATH等基準測試上,大幅勝出Google Gemma 7B-it及Mistral AI Mistral 7B Instruct這二款開源模型

_Meta

Llama 3不僅追求基準測試上的效能,也希望能最佳化其真實場景的應用,因而打造出一個新的人類評估集,涵蓋了12個關鍵應用的1,800個提示,包括尋求建議、腦力激盪、分類、封閉式問答、撰寫程式碼、創意寫作、萃取、塑造角色、開放式問答、推論、改寫與概要等,結果發現Llama 3 70B在大多數情況下的表現,都凌駕了Claude Sonnet、Mistral Medium及GPT-3.5。

_Meta

Llama 3使用了一個具備12.8萬個Token詞彙的標記器,可更有效地將語言編碼,以提高模型對文本的理解,另也藉由分組查詢注意力(Grouped Query Attention,GQA),以長達8,192個Token的序列來訓練模型,同時使用Mask來確保模型的注意力不越界,以改善推論成效。

此外,Llama 3是在超過15T個Token的資料上進行預訓練,用來訓練的資料集是Llama 2所使用的7倍大,當中所包含的程式碼是之前的4倍多,而且有超過5%的訓練內容來自於非英文的資料,這些資料是由逾30種語言組成。Meta也坦承,其它語言在Llama 3上的表現無法與英文一致。

為了訓練最大的Llama 3模型,Meta結合了3種平行化策略,包括資料平行化、模型平行化與管道平行化,有助於將模型訓練的運算分散到不同的運算設備上,因而在1.6萬個GPU上進行訓練時,每個GPU的利用率超過400 TFLOPS,亦於兩個客製化、具備2.4萬個GPU的叢集上進行訓練,也為了最大化GPU的利用率,打造先進的訓練堆疊以自動化錯誤的偵測、處理與維護。

再加上改善了硬體可靠性與偵測機制,發展更具彈性的儲存系統,而令Llama 3模型的訓練效率比Llama 2提高了3倍。

Llama 3模型很快就會登上各大雲端平臺,或是透過模型API供應商釋出,Meta將會繼續改善Llama 3,也正在開發最大的、具備4,000億個參數的Llama 3模型,儘管現在的Llama 3 400B還未完成,但Meta已公布它現有的基準測試成績供外界一睹為快。

热门文章
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
首页
游戏
合作
发现
我的