Mistral AI開源採用SMoE架構的Mixtral 8x7B模型,整體效能超越Llama 2 70B與GPT-3.5
· 2023-12-14

Mistral AI開源最新模型Mixtral 8x7B,透過採用稀疏混合專家(SMoE)模型架構,在處理大量參數和資料的同時,也維持一定的計算效率,在多數基準測試上超越Llama 2 70B(700億參數)和GPT 3.5模型

Mistral AI發表了最新的Mixtral 8x7B模型,這個模型是一個具有開放權重的稀疏混合專家模型(Sparse Mixture of Experts Model,SMoE),能夠處理32,000個Token上下文,大多數基準測試表現都優於Llama 2 70B(700億參數)和GPT 3.5模型,並採用Apache 2.0授權開源。

Mixtral 8x7B屬於稀疏混合專家模型,而稀疏混合專家模型是一種深度學習架構,適合用於建置大型且高效的神經網路。專家系統是這類模型的重要概念,指的是網路中特定子模組或是子網路,每個專家都擅長處理特定類型的輸入資料或是任務。

而稀疏混合專家模型中的稀疏性,則是指每次輸入僅會觸發一小部分專家,也就是說,並非每一個輸入都需要經過所有專家處理,因此可有效降低運算成本。稀疏混合專家模型中經過訓練的路由器,能夠根據輸入資料的特性,分配任務給最適合的專家,而在Mixtral 8x7B模型中,路由器會根據收到的任務決定2個最相關的專家,在2個專家各自處理完輸入後,專家輸出會被整合成最終的輸出。

稀疏混合專家模型透過結合不同專家的知識和技能,以稀疏的方式處理資料,提高大型神經網路的效率和效能,在處理大量參數和資料的同時,將計算成本維持在合理範圍。

Mixtral 8x7B模型總共擁有467億個參數,雖然總參數數量很大,但在處理每個Token時,模型只會選擇並使用其中的129億個參數,而這便是稀疏性的體現,Mixtral 8x7B模型並不會每次都啟動所有參數。而也因為模型每次只使用部分參數,使得處理速度和運算成本,相當於一個僅有129億個參數的模型。

根據官方的資料,相比同為開源的Llama 2 70B模型,Mixtral 8x7B在多數基準測試表現更好,推理速度更是Llama 2 70B的6倍,而且Mixtral 8x7B在大多數標準基準測試中,表現也都與GPT3.5相當甚至超越。在幻覺(Hallucination)和偏見(Bias)方面,比起Llama 2,Mixtral表現更加真實,並且呈現較少的偏見。

目前Mixtral 8x7B能夠處理英文、法文、義大利文、德文和西班牙文,其生成程式碼的能力很出色。Mixtral 8x7B經過微調後的指令跟隨模型Mixtral 8x7B Instruct,在MT-Bench獲得8.3分,成為目前最佳的開源指令跟隨模型,效能與GPT 3.5相當。

熱門文章
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
首頁
遊戲
合作
發現
我的