Meta公開其GenAI基礎設施，兩個叢集分別具備2.4萬個GPU-HUIDU Official Website

Meta公開其GenAI基礎設施，兩個叢集分別具備2.4萬個GPU

· 2024-03-14

Meta揭露該公司的生成式人工智慧基礎設施，包括兩個以不同網路架構打造的大型資料中心叢集，各自具備24,576個Nvidia H100 GPU

／Meta

除了網路架構之外，它們皆採用Meta內部設計、並已貢獻給開放運算計畫的GPU硬體平臺Grand Teton，該平臺是以許多不同世代的AI系統為基礎，並在單一的機箱中整合了電源、控制、運算與架構介面，以達到更好的效能、訊號完整性及熱效能。

在儲存上則是採用基於Meta內部Tectonic分散式儲存解決方案的Linux Filesystem in Userspace（FUSE）API ，它滿足了AI叢集對資料與檢查點的需求，令數千個GPU得以同步保存及載入檢查點，同時提供資料載入時所需的彈性，以及EB儲存等級的吞吐量。

Meta亦與Hammerspace共同開發一個平行網路檔案系統（NFS）部署，以迎合開發者對AI叢集的體驗需求。Hammerspace的優點之一是允許工程師可利用數千個GPU的資源進行任務的互動除錯，因為當程式有所變更時，此一環境中的所有節點都可立即存取。

打造大規模AI叢集的挑戰之一為同時維持其高效能及易用性，於是Meta藉由比較小叢集與大叢集的效能來找出大叢集的瓶頸並將其優化。Meta坦承，在甫完成大叢集的部署之際，其最初效能很差且不一致，因而經由調整網路拓撲，並結合對Nvidia Collective Communications Library（NCCL）的變更來優化網路路由政策，以實現最佳的網路利用率，而讓大型叢集達到與小型叢集一樣出色的預期效能。

Meta仍計畫持續建置並擴張大型GenAI叢集，計畫今年底便會擴大其基礎設施至包含35萬個Nvidia H100 GPU，並將創造等同於60萬個H100 GPU運算能力。

Popular articles

British gambling levy rates confirmed for each vertical

Regulation