Meta公開其GenAI基礎設施,兩個叢集分別具備2.4萬個GPU
· 2024-03-14

Meta揭露該公司的生成式人工智慧基礎設施,包括兩個以不同網路架構打造的大型資料中心叢集,各自具備24,576個Nvidia H100 GPU

/Meta

除了網路架構之外,它們皆採用Meta內部設計、並已貢獻給開放運算計畫的GPU硬體平臺Grand Teton,該平臺是以許多不同世代的AI系統為基礎,並在單一的機箱中整合了電源、控制、運算與架構介面,以達到更好的效能、訊號完整性及熱效能。

在儲存上則是採用基於Meta內部Tectonic分散式儲存解決方案的Linux Filesystem in Userspace(FUSE)API ,它滿足了AI叢集對資料與檢查點的需求,令數千個GPU得以同步保存及載入檢查點,同時提供資料載入時所需的彈性,以及EB儲存等級的吞吐量。

Meta亦與Hammerspace共同開發一個平行網路檔案系統(NFS)部署,以迎合開發者對AI叢集的體驗需求。Hammerspace的優點之一是允許工程師可利用數千個GPU的資源進行任務的互動除錯,因為當程式有所變更時,此一環境中的所有節點都可立即存取。

打造大規模AI叢集的挑戰之一為同時維持其高效能及易用性,於是Meta藉由比較小叢集與大叢集的效能來找出大叢集的瓶頸並將其優化。Meta坦承,在甫完成大叢集的部署之際,其最初效能很差且不一致,因而經由調整網路拓撲,並結合對Nvidia Collective Communications Library(NCCL)的變更來優化網路路由政策,以實現最佳的網路利用率,而讓大型叢集達到與小型叢集一樣出色的預期效能。

Meta仍計畫持續建置並擴張大型GenAI叢集,計畫今年底便會擴大其基礎設施至包含35萬個Nvidia H100 GPU,並將創造等同於60萬個H100 GPU運算能力。

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
首頁
遊戲
合作
發現
我的