Google云计算更新HPC工具包,加速AI和机器学习计算资源配置
· 2023-11-16

Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。


Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。HPC工具包是一组开源工具和资源,简化重复创建HPC运算环境的任务,用户可以通过现有HPC蓝图,或是在YAML文件新建蓝图,在数分钟内迅速启动并执行HPC集群。


Google发现客户会在传统的HPC集群上,使用像是Nvidia NeMo人工智能和机器学习框架,大规模定制化和部署模型。因此Google现在改进HPC工具包,应对HPC系统与人工智能/机器学习工作负载融合带来的部署挑战,让用户只要使用HPC工具包,就可以通过鼠标点击迅速设置HPC环境,开始在Nvidia GPU上训练大型语言模型。


HPC工具包拥有几个关键组件,包括HPC蓝图(Blueprint)、HPC模块、ghpc引擎和HPC部署文件夹。HPC蓝图是一种用YAML文件格式定义的配置文件,其详细指定了所要使用的HPC模块,以及定制化这些模块的方法。而HPC模块则由Terraform和Packer配置文件组成,是构建部署文件夹的基本组成。ghpc引擎则是Google的开源工具,会使用HPC蓝图以及不同的HPC模块,产生HPC部署文件夹,该文件夹为自包含,具有部署完整HPC集群需要的所有元素。


在本次更新中,Google强化HPC工具包对人工智能工作负载的支持,官方指出,他们与Nvidia一起开发了人工智能和机器学习蓝图,蓝图提供预配置分割区,支持包括G2、A2和A3三种不同的Nvidia GPU虚拟机类型。


此外,该系统以Google的Ubuntu深度学习虚拟机镜像文件为基础,并且包含了NCCL(Nvidia Collective Communications Library)Fast Socket优化,可以提升分布式运算环境中的网络通信效率。而且Google通过在蓝图中捆绑enroot容器工具,和适用于Slurm工作负载调度程序的Pyxis扩展组件,让用户能够无缝集成非特权容器,并在Slurm任务中指定使用该容器。


通过运用Google云计算的HPC工具包,开发者可以快速创建和部署遵循最佳实践的云计算环境,并集成Cloud Monitoring,进行监控与获得性能可见性。而且HPC工具包也与Google的合作伙伴解决方案与技术集成,因此能够结合DAOS、DDN EXAscaler等存储系统,以及Slurm工作负载调度程序一起使用,高效处理大量数据和复杂计算任务。


熱門文章
英國確認各垂直行業的賭博稅稅率
賭場監管
美國博彩收入在七月創下新高
網路賭博
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
賀錦麗首提及數位資產,Coinbase:拜登與沃倫的時代結束了
支付動態
哥倫比亞將提高在線賭博稅率
賭場監管
灰度即將亮相iGB LiVE 2025展位Z64。我們倫敦見
灰度頭條
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
7000+行業精英齊聚,Affiliate World Dubai 2025精彩回顧
灰度頭條
SiGMA Asia 2025即將到來,灰度展位2250準備就緒,和我們共赴馬尼拉
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
賭場監管
印第安納州在線賭場法案在眾議院委員會停滯不前
賭場監管
計劃重建商業法院以惠及馬耳他博彩行業
賭場監管
首頁
遊戲
合作
發現
我的