

Hugging Face研究人員公布小語言模型家族SmolLM,強調是以謹慎策畫的高品質資料集訓練而成,同時釋出該資料集並說明其內容及規畫方法
其中在合成資料集中,團隊產生了3,900萬筆合成文件,包含280億token的大學與高中課本、故事、文章和程式碼,涵括主題超過3.4萬。FineWeb-Edu則是Hugging Face的大型英語網頁資料集FineWeb的一部分,是利用Llama3-70B-Instruct標註挑選出的1.3T token教育類網頁資訊,幾個月前已釋出。Stack-Edu-Python則是由The Stack資料集中,根據Llama 3標註挑選的50萬筆python範例。團隊指出,經過挑選的資料集,在訓練模型的速度都會更快,其中,以Python-Edu-Python資料集訓練的速度提升了3倍。
最終團隊以SmolLM-Corpus 6,000億token資料,分別訓練了1.35億及3.6億版本模型,並以1TB token資料訓練17億版本模型。
Hugging Face團隊將開發出的SmolLM模型和參數量相當的其他模型進行標竿測試。其中SmolLM-135M在多項測試中超越小於200M(2億)參數的其他模型,包括Meta才剛公布的小型LLM MobileLLM(以1TB資料集訓練)。SmolLM-360M測試成績優於所有500M參數以下的模型,不過某些項目遜於MobileLLM-350M。至於SmolLM-1.7B模型則超越所有參數量小於2B的模型,包括微軟Phi-1.5、MobileLLM-1.5B及Qwen2。此模型在Python程式撰寫效能尤其強大。

/Hugging Face