

Meta揭露該公司的生成式人工智慧基礎設施,包括兩個以不同網路架構打造的大型資料中心叢集,各自具備24,576個Nvidia H100 GPU
/Meta
除了網路架構之外,它們皆採用Meta內部設計、並已貢獻給開放運算計畫的GPU硬體平臺Grand Teton,該平臺是以許多不同世代的AI系統為基礎,並在單一的機箱中整合了電源、控制、運算與架構介面,以達到更好的效能、訊號完整性及熱效能。
在儲存上則是採用基於Meta內部Tectonic分散式儲存解決方案的Linux Filesystem in Userspace(FUSE)API ,它滿足了AI叢集對資料與檢查點的需求,令數千個GPU得以同步保存及載入檢查點,同時提供資料載入時所需的彈性,以及EB儲存等級的吞吐量。
Meta亦與Hammerspace共同開發一個平行網路檔案系統(NFS)部署,以迎合開發者對AI叢集的體驗需求。Hammerspace的優點之一是允許工程師可利用數千個GPU的資源進行任務的互動除錯,因為當程式有所變更時,此一環境中的所有節點都可立即存取。
打造大規模AI叢集的挑戰之一為同時維持其高效能及易用性,於是Meta藉由比較小叢集與大叢集的效能來找出大叢集的瓶頸並將其優化。Meta坦承,在甫完成大叢集的部署之際,其最初效能很差且不一致,因而經由調整網路拓撲,並結合對Nvidia Collective Communications Library(NCCL)的變更來優化網路路由政策,以實現最佳的網路利用率,而讓大型叢集達到與小型叢集一樣出色的預期效能。
Meta仍計畫持續建置並擴張大型GenAI叢集,計畫今年底便會擴大其基礎設施至包含35萬個Nvidia H100 GPU,並將創造等同於60萬個H100 GPU運算能力。