Google云计算更新HPC工具包,加速AI和机器学习计算资源配置
· 2023-11-16

Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。


Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。HPC工具包是一组开源工具和资源,简化重复创建HPC运算环境的任务,用户可以通过现有HPC蓝图,或是在YAML文件新建蓝图,在数分钟内迅速启动并执行HPC集群。


Google发现客户会在传统的HPC集群上,使用像是Nvidia NeMo人工智能和机器学习框架,大规模定制化和部署模型。因此Google现在改进HPC工具包,应对HPC系统与人工智能/机器学习工作负载融合带来的部署挑战,让用户只要使用HPC工具包,就可以通过鼠标点击迅速设置HPC环境,开始在Nvidia GPU上训练大型语言模型。


HPC工具包拥有几个关键组件,包括HPC蓝图(Blueprint)、HPC模块、ghpc引擎和HPC部署文件夹。HPC蓝图是一种用YAML文件格式定义的配置文件,其详细指定了所要使用的HPC模块,以及定制化这些模块的方法。而HPC模块则由Terraform和Packer配置文件组成,是构建部署文件夹的基本组成。ghpc引擎则是Google的开源工具,会使用HPC蓝图以及不同的HPC模块,产生HPC部署文件夹,该文件夹为自包含,具有部署完整HPC集群需要的所有元素。


在本次更新中,Google强化HPC工具包对人工智能工作负载的支持,官方指出,他们与Nvidia一起开发了人工智能和机器学习蓝图,蓝图提供预配置分割区,支持包括G2、A2和A3三种不同的Nvidia GPU虚拟机类型。


此外,该系统以Google的Ubuntu深度学习虚拟机镜像文件为基础,并且包含了NCCL(Nvidia Collective Communications Library)Fast Socket优化,可以提升分布式运算环境中的网络通信效率。而且Google通过在蓝图中捆绑enroot容器工具,和适用于Slurm工作负载调度程序的Pyxis扩展组件,让用户能够无缝集成非特权容器,并在Slurm任务中指定使用该容器。


通过运用Google云计算的HPC工具包,开发者可以快速创建和部署遵循最佳实践的云计算环境,并集成Cloud Monitoring,进行监控与获得性能可见性。而且HPC工具包也与Google的合作伙伴解决方案与技术集成,因此能够结合DAOS、DDN EXAscaler等存储系统,以及Slurm工作负载调度程序一起使用,高效处理大量数据和复杂计算任务。


热门文章
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
意大利监管机构更新赌博系统验证技术规则
游戏风向
新加坡最受好评的在线赌场 – Aw8
线上游戏
西班牙监管机构警告在线赌博平台存在身份盗窃行为
游戏风向
荷兰博彩监管机构警告彩票业不要发布广告
游戏风向
计划重建商业法院以惠及马耳他博彩行业
游戏风向
印第安纳州在线赌场法案在众议院委员会停滞不前
游戏风向
英国主要银行加入新赌博危害行动实验室
游戏风向
哥伦比亚将提高在线赌博税率
游戏风向
灰度即将亮相iGB LiVE 2025展位Z64,我们伦敦见
灰度头条
美国博彩收入在七月创下新高
线上游戏
英国确认各垂直行业的赌博税税率
游戏风向
荷兰博彩监管机构赢得牌照拒发案
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
首页
游戏
合作
发现
我的