AI趨勢周報第257期: Mistral AI用Mamba架構打造程式碼生成模型
支付動態 · 2024-07-26

Mistral AI用Mamba 2架構打造程式碼生成模型,表現比同規模的Transformer模型好;Hugging Face釋出小又強健的語言模型SmolLM;Meta開源Llama 3.1 405B;有效加速Transformer生成時間,蘋果推LazyLLM;Nvidia推出企業級模型客製化平臺AI Foundry

Hugging Face     SmolLM     小型語言模型  

Hugging Face釋出小又強健的語言模型SmolLM

最近Hugging Face發布一系列語言模型,名為SmolLM,共有3個版本,包括1.35億參數(135M)、2.6億參數(360M)和17億參數(1.7B)版本。為訓練這些模型,Hugging Face還建置了高品質的訓練語料庫SmolLM-Corpus,由3大類語料組成,分別是目前最大的合成教科書和故事資料集Cosmopedia v2,共有280億個字元(Tokens),以及程式碼教學範例資料集Python-Edu、篩除重複範例的網路範例資料集FineWeb-Edu。這個SmolLM-Corpus語料庫,也隨著模型一起開源。

就模型效能來說,SmolLM在各種常識推理和世界知識測試中表現優異,超越了同規模的MobileLLM、Phi-1.5和Qwen模型。這一系列小型模型,有助於AI在各種裝置上執行,提高應用性。(詳全文)

  Llama 3.1    Meta    開源  

Meta終於開源Llama 3.1 405B了

日前,Meta開源了Llama系列語言模型的最新款Llama 3.1 405B,具4,050億個參數,脈絡長度達12.8萬個字元(Token),支援8種語言,是Meta迄今開發的最大模型,號稱是全球第一個達頂尖水準的開源模型。Meta創辦人暨執行長祖克柏還特別強調開源AI的重要性,認為開源纔是AI的未來。

進一步來說,該模型有2個版本,包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆個Token上進行訓練,經測試,Llama 3.1 405B在通用基準測試IFEval、數學測試GSM8K、推論測試ARC Challenge等測試中,都勝過GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人類專家評估中,則與GPT-4-0125、Claude 3.5 Sonnet的表現不相上下,但明顯不及GPT-4o。(詳全文)

熱門文章
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
首頁
遊戲
合作
發現
我的