Hugging Face公佈手機執行的小型語言模型SmolLM2-灰度官网

Hugging Face公佈手機執行的小型語言模型SmolLM2

支付動態 · 2024-11-04

Hugging Face強調1.7B參數版本的SmolLM2在多項標竿測試上，優於Llama-1B及阿里巴巴的Qwen2.5-1.5B，但SmolLM2現階段只支援英文

Hugging Face

Hugging Face上週公佈可在手機上執行的最新一代語言模型SmolLM2家族。

這是繼7月首次問世後，SmolLM家族最新版本，包括參數量135M、360M與1.7B三種規模，其中135M參數模型分成基礎及Instruct版，而360M與1.7B參數模型則分成基礎、Instruct及GGUF（GPT-Generated Unified Format）版，共11個模型，皆以Apache 2.0授權開源。

135M、360M與1.7B都是以公開資料集和Hugging Face編排的資料集如FineWeb-Edu、DCLM和The Stack，以監督式微調（supervised fine-tuning）方法訓練，1.7B版本還多了些數學與程式碼資料集。資料集的量分別為2兆、4兆與11兆字詞。Hugging Face還應用直接偏好優化（Direct Preference Optimization，DPO）演算法來強化。

三個規模的模型訓練的軟體架構皆是Transformer decoder，硬體架構而言，其中135M與360M模型執行於64顆H100的伺服器，而1.7B版本則為256顆H100的環境。

一如第一代，SmolLM2也是可執行在裝置上的輕量級模型，但在指令遵從、知識與理解能力優於第一代。而拜Argilla的資料集如Synth-APIGen-v 0.1之賜，Instruct模型另外還支援改寫、重要摘要、與函式呼叫等任務。

根據Hugging Face的數據，在多項標竿測試上，以SomlLM2-1.7B而言，不但優於第一代，也超過參數量更多的Llama-1B-Instruct及阿里巴巴的Qwen2.5-1.5B-Instruct。

雖然能力更提升，但新一代SmolLM還是有些不足。目前SmolLM2模型只能理解和生成英文內容。此外也還存在事實準確性、邏輯一致性以及偏差等問題。Hugging Face建議使用者只能用於輔助工具，且應格外小心評估其產出內容。

熱門文章

菲律賓博彩技術賽道迎來新變局，B2B 供應模式加速滲透

東南亞資訊