Hugging Face公布可在设备上运行的小型多模态模型SmolVLM
支付動態 · 2024-11-28

SmolVLM为参数量20亿的小型多模态模型,可接受以任意图片和文本的组合作为输入,并生成文本输出

Hugging Face

在7月公布SmolLM轻量语言模型后,AI应用开发平台Hugging Face本周公布轻量多模态模型SmolVLM,主打轻量、高性能,为其小型语言模型再添成员。

SmolVLM为参数量20亿的小型多模态模型,号称是同规模模型的State-of-the-Art(SOTA)。SmolVLM可接受以任意图片和文本的组合作为输入,但作为轻量模型,它只会生成文本输出。SmolVLM能回答关于图片的问题、描述图片内容,根据多张图片来说故事,也可以当成纯语言模型使用。开发团队表示,SmolVLM基于轻量架构,很适合在设备上运行,且维持多模态任务的高性能。

SmolVLM的架构是以Hugging Face之前推出的视觉模型IDEFICS 3为基础,连Transformer实作也相同。但是Hugging Face较IDEFICS有几点不同。第一是将语言骨干由Llama 3.1 8B换成了SmolLM2 1.7B。其次,SmolVLM采用更强大的图片压缩技术,使用了像素混合(pixel shuffle)策略,以及更大的patch来为视觉字词编码,这能提升它编码效率、推论速度更快,但使用的内存更少。

Hugging Face强调SmolVLM的高效及内存效率,并公布和市面参数量相当的模型的测试数据。在多模态理解、推理、数学以及文本理解能力方面,SmolVLM超越InternVL2、PaliGemma、MM1.5、moondream、MiniCPM-V-2等模型,而以GPU RAM使用效率而言,也超越大多数模型。其中和阿里巴巴的Qwen2-V2相较,SmolVLM的预填充吞吐量快3.3到4.5倍,而生成吞吐量则是7.5到16倍大。

Hugging Face公布了SmolVLM家族三个模型,包括可供微调基础模型SmolVLM-Base、以合成数据集微调成的SmolVLM-Synthetic、以及以指令微调的版本SmolVLM Instruct,后者能立即提供终端用户交互使用。SmolVLM的所有模型检查点、训练数据集、训练方法及工具,都以Apache 2.0授权开源。

热门文章
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
英国确认各垂直行业的赌博税税率
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
首页
游戏
合作
发现
我的