

Mistral AI用Mamba 2架构打造代码生成模型,表现比同规模的Transformer模型好;Hugging Face发布小又强健的语言模型SmolLM;Meta开源Llama 3.1 405B;有效加速Transformer生成时间,苹果推LazyLLM;Nvidia推出企业级模型客制化平台AI Foundry
Hugging Face SmolLM 小型语言模型
Hugging Face发布小又强健的语言模型SmolLM
最近Hugging Face发布一系列语言模型,名为SmolLM,共有3个版本,包括1.35亿参数(135M)、2.6亿参数(360M)和17亿参数(1.7B)版本。为训练这些模型,Hugging Face还建置了高品质的训练语料库SmolLM-Corpus,由3大类语料组成,分别是目前最大的合成教科书和故事数据集Cosmopedia v2,共有280亿个字符(Tokens),以及代码教学范例数据集Python-Edu、筛除重复范例的网络范例数据集FineWeb-Edu。这个SmolLM-Corpus语料库,也随着模型一起开源。
就模型性能来说,SmolLM在各种常识推理和世界知识测试中表现优异,超越了同规模的MobileLLM、Phi-1.5和Qwen模型。这一系列小型模型,有助于AI在各种设备上运行,提高应用性。(详全文)

Llama 3.1 Meta 开源
Meta终于开源Llama 3.1 405B了
日前,Meta开源了Llama系列语言模型的最新款Llama 3.1 405B,具4,050亿个参数,脉络长度达12.8万个字符(Token),支持8种语言,是Meta迄今开发的最大模型,号称是全球第一个达顶尖水准的开源模型。Meta创办人暨首席执行官祖克柏还特别强调开源AI的重要性,认为开源才是AI的未来。
进一步来说,该模型有2个版本,包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆个Token上进行训练,经测试,Llama 3.1 405B在通用基准测试IFEval、数学测试GSM8K、推论测试ARC Challenge等测试中,都胜过GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人类专家评估中,则与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下,但明显不及GPT-4o。(详全文)