Meta发布Llama 3.2 1B/3B模型的量化版
支付動態 · 2024-10-25

Meta强调Llama 3.2 1B/3B在经过QAT与SpinQuant方法量化之后,除了大幅减少模型规模与内存使用量,同时提高速度、降低功耗,能够在更多行动设备上运作

Meta

继于今年9月开源Llama 3.2的1B与3B模型之后,Meta周四(10/24)发布了1B与3B模型的量化版,让模型大小平均减少了56%,内存使用量平均减少了41%,模型速度提高了2~4倍,还能降低功耗,以让这些模型能够部署到更多的行动设备上。

Meta说明,他们使用量化感知训练(Quantization-Aware Training,QAT)与后训练量化(SpinQuant)两种方法来量化这两个模型。前者使用LoRA调节器,于训练过程中即考虑量化的影响,着重的是模型的准确性,后者则是在模型完成训练后再进行量化,强调模型的可移植性。

不管是Llama 3.2的1B或3B模型都各自有两个量化版本,因此总计有4个量化模型,分别是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant,以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。

Meta指出,这些量化的模型比非量化(Llama BF16)模型快得多,占用更少的内存,使用更低的功耗,同时还保持与Llama BF16版本几乎相同的精度。

量化后的Llama 3.2 1B/3B模型尽管只支持8,000个Token的脉络(原本支持12.8万个Token),但Meta的评测却发现,不管是Llama QLoRA或Llama SpinQuant等量化版本的各项基准测试,都与原来的Llama BF16版本相去不远。

Meta是与合作伙伴共同开发了量化模型,并将这些模型提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU之外,Meta亦计划通过神经处理单元(NPU)来提升这些量化模型的性能,其合作伙伴已经于开源的行动设备推论解决方案ExecuTorch上集成了可利用NPU的基础组件,也正努力于NPU运行这些量化模型。

迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS设备上测试过这些量化模型,确定它们都可达到相当的准确性。

热门文章
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
英国确认各垂直行业的赌博税税率
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
首页
游戏
合作
发现
我的