PyTorch釋出可大幅改進AI模型運算效能的torchao函式庫
支付動態 · 2024-10-02

PyTorch全新原生函式庫torchao,利用低精度資料型態、量化和稀疏性技術,顯著降低模型的計算成本和記憶體使用,提升推理與訓練效能

PyTorch推出全新原生函式庫torchao,透過低精度資料型態、量化和稀疏性技術,減少模型的計算成本和記憶體使用量,讓模型執行更高效能。torchao提供了一套易於使用的工具組,支援多種模型推理和訓練最佳化方法,可廣泛用於PyTorch模型,熱門的LLaMA 3和Diffusion模型皆可獲得顯著的效能提升。

低精度資料型態是torchao加速的關鍵之一。該工具支援float8、int4等低精度資料型態,能有效減少計算成本和記憶體使用需求,像是在LLaMA 3 70B模型預訓練中,torchao提供了float8訓練流程,可將模型運算加速達1.5倍。開發者只需要使用convert_to_float8_training函式,即可將模型訓練運算轉換成float8,簡單實現高效訓練。

在推理方面,torchao提供多種量化方式,包括權重量化(Weight-Only Quantization)和動態啟動量化(Dynamic Activation Quantization)。使用者可以透過API自行選擇適合的量化策略,以達到推理的最佳效能。

torchao提供int4權重量化方法,可以將LLaMA 3 8B模型的推理速度提升達97%,而透過量化的鍵值快取,在128K上下文長度下顯示記憶體使用量可減少73%。此外,torchao的autoquant功能可自動替模型的每一層選擇最佳量化方式,減少開發者手動調整的麻煩。

稀疏性技術也是torchao提升模型效率的重要手段,藉由引入稀疏性,torchao可最佳化模型參數計算,降低不必要的運算開銷,例如torchao結合稀疏性和量化技術,可讓ViT-H模型推理獲得5%速度提升。同時,torchao還可將權重量化成int4,並將鍵值快取量化成int8,使LLaMA 3.1 8B在完整的128K上下文長度下,僅佔用18.9GB的顯示記憶體。

torchao不僅顯著提升LLaMA 3 8B模型的基準測試效能,還讓Diffusion模型Flux.1-Dev的推理速度提升53.88%。

PyTorch官方未來將繼續更新torchao,支援精度低於int4以下的資料型態,開發更高吞吐量的推理核心,甚至拓展支援更多的硬體後端。

熱門文章
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的