AI趋势周报第257期： Mistral AI用Mamba架构打造代码生成模型-灰度官网

AI趋势周报第257期： Mistral AI用Mamba架构打造代码生成模型

支付動態 · 2024-07-26

Mistral AI用Mamba 2架构打造代码生成模型，表现比同规模的Transformer模型好；Hugging Face发布小又强健的语言模型SmolLM；Meta开源Llama 3.1 405B；有效加速Transformer生成时间，苹果推LazyLLM；Nvidia推出企业级模型客制化平台AI Foundry

Hugging Face SmolLM 小型语言模型

Hugging Face发布小又强健的语言模型SmolLM

最近Hugging Face发布一系列语言模型，名为SmolLM，共有3个版本，包括1.35亿参数（135M）、2.6亿参数（360M）和17亿参数（1.7B）版本。为训练这些模型，Hugging Face还建置了高品质的训练语料库SmolLM-Corpus，由3大类语料组成，分别是目前最大的合成教科书和故事数据集Cosmopedia v2，共有280亿个字符（Tokens），以及代码教学范例数据集Python-Edu、筛除重复范例的网络范例数据集FineWeb-Edu。这个SmolLM-Corpus语料库，也随着模型一起开源。

就模型性能来说，SmolLM在各种常识推理和世界知识测试中表现优异，超越了同规模的MobileLLM、Phi-1.5和Qwen模型。这一系列小型模型，有助于AI在各种设备上运行，提高应用性。（详全文）

Llama 3.1 Meta 开源

Meta终于开源Llama 3.1 405B了

日前，Meta开源了Llama系列语言模型的最新款Llama 3.1 405B，具4,050亿个参数，脉络长度达12.8万个字符（Token），支持8种语言，是Meta迄今开发的最大模型，号称是全球第一个达顶尖水准的开源模型。Meta创办人暨首席执行官祖克柏还特别强调开源AI的重要性，认为开源才是AI的未来。

进一步来说，该模型有2个版本，包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆个Token上进行训练，经测试，Llama 3.1 405B在通用基准测试IFEval、数学测试GSM8K、推论测试ARC Challenge等测试中，都胜过GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人类专家评估中，则与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下，但明显不及GPT-4o。（详全文）

热门文章

密西西比州众议院委员会推进提议增加赌场税的法案

游戏风向