Mistral AI開源採用SMoE架構的Mixtral 8x7B模型，整體效能超越Llama 2 70B與GPT-3.5-灰度官网

Mistral AI開源採用SMoE架構的Mixtral 8x7B模型，整體效能超越Llama 2 70B與GPT-3.5

· 2023-12-14

Mistral AI開源最新模型Mixtral 8x7B，透過採用稀疏混合專家（SMoE）模型架構，在處理大量參數和資料的同時，也維持一定的計算效率，在多數基準測試上超越Llama 2 70B（700億參數）和GPT 3.5模型

Mistral AI發表了最新的Mixtral 8x7B模型，這個模型是一個具有開放權重的稀疏混合專家模型（Sparse Mixture of Experts Model，SMoE），能夠處理32,000個Token上下文，大多數基準測試表現都優於Llama 2 70B（700億參數）和GPT 3.5模型，並採用Apache 2.0授權開源。

Mixtral 8x7B屬於稀疏混合專家模型，而稀疏混合專家模型是一種深度學習架構，適合用於建置大型且高效的神經網路。專家系統是這類模型的重要概念，指的是網路中特定子模組或是子網路，每個專家都擅長處理特定類型的輸入資料或是任務。

而稀疏混合專家模型中的稀疏性，則是指每次輸入僅會觸發一小部分專家，也就是說，並非每一個輸入都需要經過所有專家處理，因此可有效降低運算成本。稀疏混合專家模型中經過訓練的路由器，能夠根據輸入資料的特性，分配任務給最適合的專家，而在Mixtral 8x7B模型中，路由器會根據收到的任務決定2個最相關的專家，在2個專家各自處理完輸入後，專家輸出會被整合成最終的輸出。

稀疏混合專家模型透過結合不同專家的知識和技能，以稀疏的方式處理資料，提高大型神經網路的效率和效能，在處理大量參數和資料的同時，將計算成本維持在合理範圍。

Mixtral 8x7B模型總共擁有467億個參數，雖然總參數數量很大，但在處理每個Token時，模型只會選擇並使用其中的129億個參數，而這便是稀疏性的體現，Mixtral 8x7B模型並不會每次都啟動所有參數。而也因為模型每次只使用部分參數，使得處理速度和運算成本，相當於一個僅有129億個參數的模型。

根據官方的資料，相比同為開源的Llama 2 70B模型，Mixtral 8x7B在多數基準測試表現更好，推理速度更是Llama 2 70B的6倍，而且Mixtral 8x7B在大多數標準基準測試中，表現也都與GPT3.5相當甚至超越。在幻覺（Hallucination）和偏見（Bias）方面，比起Llama 2，Mixtral表現更加真實，並且呈現較少的偏見。

目前Mixtral 8x7B能夠處理英文、法文、義大利文、德文和西班牙文，其生成程式碼的能力很出色。Mixtral 8x7B經過微調後的指令跟隨模型Mixtral 8x7B Instruct，在MT-Bench獲得8.3分，成為目前最佳的開源指令跟隨模型，效能與GPT 3.5相當。

熱門文章

西班牙監管機構警告在線賭博平臺存在身份盜竊行為

合規與政策