PyTorch发布可大幅改进AI模型运算性能的torchao函数库
支付動態 · 2024-10-02

PyTorch全新原生函数库torchao,利用低精度数据型态、量化和稀疏性技术,显著降低模型的计算成本和内存使用,提升推理与训练性能

PyTorch推出全新原生函数库torchao,通过低精度数据型态、量化和稀疏性技术,减少模型的计算成本和内存使用量,让模型运行更高性能。torchao提供了一套易于使用的工具组,支持多种模型推理和训练优化方法,可广泛用于PyTorch模型,热门的LLaMA 3和Diffusion模型皆可获得显著的性能提升。

低精度数据型态是torchao加速的关键之一。该工具支持float8、int4等低精度数据型态,能有效减少计算成本和内存使用需求,像是在LLaMA 3 70B模型预训练中,torchao提供了float8训练流程,可将模型运算加速达1.5倍。开发者只需要使用convert_to_float8_training函数,即可将模型训练运算转换成float8,简单实现高效训练。

在推理方面,torchao提供多种量化方式,包括权重量化(Weight-Only Quantization)和动态启动量化(Dynamic Activation Quantization)。用户可以通过API自行选择适合的量化策略,以达到推理的最佳性能。

torchao提供int4权重量化方法,可以将LLaMA 3 8B模型的推理速度提升达97%,而通过量化的键值缓存,在128K上下文长度下显示内存使用量可减少73%。此外,torchao的autoquant功能可自动替模型的每一层选择最佳量化方式,减少开发者手动调整的麻烦。

稀疏性技术也是torchao提升模型效率的重要手段,借由引入稀疏性,torchao可优化模型参数计算,降低不必要的运算开销,例如torchao结合稀疏性和量化技术,可让ViT-H模型推理获得5%速度提升。同时,torchao还可将权重量化成int4,并将键值缓存量化成int8,使LLaMA 3.1 8B在完整的128K上下文长度下,仅占用18.9GB的显示内存。

torchao不仅显著提升LLaMA 3 8B模型的基准测试性能,还让Diffusion模型Flux.1-Dev的推理速度提升53.88%。

PyTorch官方未来将继续更新torchao,支持精度低于int4以下的数据型态,开发更高吞吐量的推理内核,甚至拓展支持更多的硬件后端。

热门文章
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
首页
游戏
合作
发现
我的