【LLM關鍵基礎建設:算力】因應大模型訓練需求,國網中心算力明年大擴充
· 2023-12-01

算力9 PFLOPS的臺灣杉2號,今年因應TAIDE計畫擴充了4.8 PFLOPS。國網中心計畫,明年再增加16 PFLOPS算力,來因應更多AI大模型訓練需求

採用V100 GPU的臺灣杉2號,運算效能可達9 PFLOPS。因應國科會TAIDE計畫,今年10月擴充了72片H100 GPU,預估效能可增加4.8 PFLOPS。明年國網中心計畫再擴充16 PFLOPS,來因應70B參數量LLM模型的預訓練。(/國網中心)

即便不是從無到有、開發一套大型語言模型(LLM),以開源LLM為基礎,用數百億Token語料進行預訓練、微調和人類回饋強化學習(RLHF)所優化出的繁中基礎模型,也是極耗成本。光130億參數模型,就得花上幾個月才能完成預訓練。

算力,是影響訓練成敗的一大關鍵。臺灣現有算力,夠發展自己的LLM嗎?

盤點臺灣現有超級電腦算力

臺灣目前的主要算力資源,集中於國家高速網路與計算中心3臺超級電腦,包括臺灣杉1、2、3號,總效能約20 PFLOPS。其中,臺灣杉1號和3號以CPU為主,專為工程運算、大型模擬等任務設計,臺灣杉2號則採V100 GPU,專為AI模型開發和推論而設計,運算效能可達9 PFLOPS。臺灣杉2號雖有2,016片GPU,但是分開使用,半數由國網中心管理,供公部門和學研界使用,另一部分則由建置臺灣杉2號的台智雲營運,來處理業界需求。

這樣的算力,能否滿足繁中LLM發展需求?國網中心主任張朝亮指出,以Meta開源模型Llama 2為例,它有70億參數(7B)、130億參數(13B)和700億參數(70B)版本,在標準條件下,進行7B、13B模型預訓練和全參數微調,臺灣杉2號都能應付。所謂的標準條件是指,搭配預訓練的資料量為模型參數的20倍,亦即國網中心臺灣杉2號,面對7B模型進行預訓練(搭配1,400億個Token訓練資料)還是對13B模型預訓練(搭配2,400億個Token資料量)需求,都可以勝任。就算資料量多一些,臺灣杉2號也能處理,只是所需時間長了點。

「但若是70B版模型預訓練,國網中心算力可能就不太夠了。」張朝亮解釋,這是因為,Meta從無到有訓練Llama 2時,需要上千甚至上萬片A100 GPU,所需時間大約為6個月,而臺灣杉2號採用相對低階的V100 GPU,效能約為1:3。若以臺灣杉2號進行70B模型預訓練,可能得花上9個月至1年。再者,臺灣杉2號還得支援其他AI專案,無法全力發展單一LLM專案。

如何提供夠用的算力,正是國網中心協助國科會打造TAIDE模型時,所面臨的挑戰。

助國科會打造臺版LLM,平行運算是關鍵

今年4月28日,國科會TAIDE計畫正式展開,國網中心隨即提供臺灣杉2號算力,來協助發展臺版LLM。經過數月發展,國科會現已提供繁中優化的TAIDE 7B模型,供企業和公部門簽約使用,預計明年初提供13B版本模型,同時展開70B模型優化工作。

國科會TAIDE模型能一步步順利上架,一大關鍵是高效能運算,尤其是平行化運算。張朝亮是該領域專家,他專攻流體力學和高效能平行計算,不只在美國NASA從事研究工作34年,回臺接任國網中心主任後,也親自參與TAIDE模型的平行運算和性能調校工作。

他點出,平行運算並非新發明,在高效能運算領域中已發展數十年,是項成熟技術。他自己從事科學工程運算時,就時常運用,只是在AI運算領域,作法稍有不同。「平行運算的原理很簡單,」張朝亮說明,好比一臺電腦執行一項任務,需要10天才完成,若同時使用10臺電腦,一天就能完成。以此類推,一臺超級電腦可想像為成千上萬臺電腦組成,執行複雜運算任務時,可透過切分任務,來讓多臺電腦同時執行。

其中一種常見且簡單的平行運算方法,是從資料量下手的資料平行化。意思是,假設AI模型參數量不大,單片GPU就能執行訓練,一臺主機因有8片GPU,就可訓練模型8次。這時,開發者可將訓練資料分割,將每批不同的訓練資料,分別交給各個GPU,同時進行運算,讓模型不斷修正參數。

當模型大到無法用單一GPU執行訓練時,就需要另一種平行化方法來因應。因為模型參數量越大,就需要越多GPU支援,可能是一臺主機,或數十、數百臺或上千臺主機。在這種情形下,每臺主機只負責一部分的模型訓練,而訓練資料的分配和傳輸,就變得十分複雜,也會使模型訓練過程變得冗長。

此時,就需要NVLink和訊息傳輸介面(MPI),來提高主機內和跨主機的資料交換效率。張朝亮指出,傳統科學運算時常使用MPI,使用者得針對每一項平行化和資料傳輸一一寫程式,但在AI領域,有不少現成工具可加速,比如深度學習框架PyTorch提供平行運算工具,將MPI和GPU平行化所需的NVLink等分段工作打包,能根據需求拆解MPI和NVLink任務、自動執行。這種作法,就是張量平行化方法。國網中心在國科會TAIDE計畫初期,就建置了平行化工具,來讓開發團隊進行性能調校。

分階段提升AI算力,還要引進量子電腦

不只是平行化運算加持,這次TAIDE計畫,還進一步提高了臺灣杉2號算力。今年10月,他們購置了9臺主機、共72片H100 GPU,是臺灣杉2號原搭載的V100 GPU第三代,預估效能可達4.8 PFLOPS。

國網中心也以4.8 PFLOPS為基準,預計明年再增加16 PFLOPS算力。這些算力升級,也能用來解決,原本臺灣杉2號可能難以應付70B模型預訓練的問題。至於國網中心的整體算力提升目標,則是要在5年內達到200至300 PFLOPS。

這次的LLM訓練經驗,也影響了張朝亮對下一代AI超級電腦的建置想法。他計畫分年建置,因為這麼做,每年都可購入新機器,能避免基礎設施過時。

甚至,國網中心還規畫引進量子電腦。張朝亮點出,採用量子電腦是世界趨勢,他在剛落幕的2023超級電腦大會中,就見到非常多量子電腦公司和新創,「臺灣一定要及早切入這個領域,否則會落後。」而國網中心的規畫方向有2個,一是觀察量子位元數量發展,以量子位元數多的量子電腦為優先選擇,二是依照世界主流作法,將量子電腦與超級電腦整合,透過超級電腦將資料轉換為適合量子運算的形式,交由量子電腦計算,再將計算結果交給超級電腦,轉換為人類可讀的資料。

國網中心將另外建置超級電腦來與量子電腦溝通,目前規畫中的AI超級電腦,也將撥出一部分來執行這個轉換工作。此外,國網中心也打算引進可模擬量子電腦的工具cuQuantum,來提高量子電腦模擬在GPU的運算效率。

鼓勵企業、新創運用超算資源

「AI和算力,是接下來幾年非常重要的國家發展指標。」張朝亮認為,臺灣不只要發展高速運算的基礎建設,還要鼓勵企業和學研界挑戰「大題目」。他觀察,過去幾年,臺灣研究風氣保守,「我們鼓勵大家發表論文,但沒有鼓勵大家提出解決大問題的機制。」他認為,ChatGPT之所以存在,是因為有勇於挑戰大題目的文化DNA。

「我希望未來幾年,能夠改變這樣的想法。」為鼓勵專家挑戰大題目、勇於使用大算力解決大問題,張朝亮分享個人觀點,政府在編排研究補助專案時,也許可直接命題,提出如TAIDE這類需要超級電腦運算的大計畫,來編排經費、鼓勵專家投入研究。

不只如此,張朝亮還點出,國網中心正擬定計畫,要鼓勵中小企業、新創產業使用超級電腦。亦即在下一代AI超級電腦發展的幾年,國網中心將針對出眾的提案,提供「非常優惠的價格,甚至免費,來讓提案企業和新創使用上百PFLOPS效能的超級電腦,」他說。

 相關報導 

熱門文章
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
英國確認各垂直行業的賭博稅稅率
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
首頁
遊戲
合作
發現
我的