新版GKE可管理最多6.5万集群节点,超越AWS、Azure 10倍
支付動態 · 2024-11-14

Google Cloud公布最新Google Kubernetes Engine版本,号称可支持最高达65,000个节点的服务器集群,以运行超大型AI模型

Google Cloud

Google Cloud公布最新Google Kubernetes Engine版本,号称可支持最高达65,000个节点的服务器集群,以运行超大型AI模型。

生成式AI技术演进及应用普及,推升了大型语言模型(LLM)规模及参数量也愈来愈大,目前许多已突破千亿参数,甚至有些来到2兆。而训练这些大型模型的加速器,需要超过1万个节点的运算基础架构。

Google Kubernetes Engine(GKE)向来可支持多节点集群,以运行AI模型训练任务。先前版本GKE可支持1.5万个集群节点,随着新版推出,现在GKE可支持高达6.5万个节点的集群。Google认为最新GKE支持的节点规模,是Amazon和微软的10倍以上。

Google Cloud而言,现在单一节点提供了多个加速器,像是搭载4颗芯片的Cloud TPU v5e节点,因此单一集群使用最新版GKE后,最多可管理超过25万颗加速器。

Google说明新版GKE较前代的创新。首先,该公司将Key-Value数据库由etcd换成了以Google Spanner为基础的key-value数据库,后者几乎规模无上限,可改善集群运作(如启动和更新)延迟性,及无状态集群控制层(control plance)。Google并实作etcd API以提供回溯兼容性,使内核Kubernetes无需变更。

其次,Google改善了管理Kubernetes控制层的GKE基础架构,使GKE现在扩充速度更快,改善的控制层有多重效益,包括能运行高一致性的大容量运算。控制层现在能自动因应运算调节,并使延迟性维持在可预测范围。这点对运行大型动态应用如SaaS、灾难复原和备援、批量部署以及测试环境来说尤其重要。

有了新版GEK,Google Cloud强调更能支持AI模型任务。训练AI模型时企业需要分配运算资源给多个工作负载,因此将任务集中在少量集群可提供最大调度弹性,运行推论、研究和训练的作业。Google说,由于支持6.5万个节点,现在GKE允许单一集群运行5种任务,每种任务的运行性能,都足以媲美2023年Google Cloud以5万余颗TPU v5e,缔造的10 exa-FLOPs的LLM训练速度世界纪录。

热门文章
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
英国确认各垂直行业的赌博税税率
游戏风向
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
首页
游戏
合作
发现
我的