【LLM關鍵基礎建設：算力】因應大模型訓練需求，國網中心算力明年大擴充-灰度官网

【LLM關鍵基礎建設：算力】因應大模型訓練需求，國網中心算力明年大擴充

· 2023-12-01

算力9 PFLOPS的臺灣杉2號，今年因應TAIDE計畫擴充了4.8 PFLOPS。國網中心計畫，明年再增加16 PFLOPS算力，來因應更多AI大模型訓練需求

採用V100 GPU的臺灣杉2號，運算效能可達9 PFLOPS。因應國科會TAIDE計畫，今年10月擴充了72片H100 GPU，預估效能可增加4.8 PFLOPS。明年國網中心計畫再擴充16 PFLOPS，來因應70B參數量LLM模型的預訓練。（／國網中心）

即便不是從無到有、開發一套大型語言模型（LLM），以開源LLM為基礎，用數百億Token語料進行預訓練、微調和人類回饋強化學習（RLHF）所優化出的繁中基礎模型，也是極耗成本。光130億參數模型，就得花上幾個月才能完成預訓練。

算力，是影響訓練成敗的一大關鍵。臺灣現有算力，夠發展自己的LLM嗎？

盤點臺灣現有超級電腦算力

臺灣目前的主要算力資源，集中於國家高速網路與計算中心3臺超級電腦，包括臺灣杉1、2、3號，總效能約20 PFLOPS。其中，臺灣杉1號和3號以CPU為主，專為工程運算、大型模擬等任務設計，臺灣杉2號則採V100 GPU，專為AI模型開發和推論而設計，運算效能可達9 PFLOPS。臺灣杉2號雖有2,016片GPU，但是分開使用，半數由國網中心管理，供公部門和學研界使用，另一部分則由建置臺灣杉2號的台智雲營運，來處理業界需求。

這樣的算力，能否滿足繁中LLM發展需求？國網中心主任張朝亮指出，以Meta開源模型Llama 2為例，它有70億參數（7B）、130億參數（13B）和700億參數（70B）版本，在標準條件下，進行7B、13B模型預訓練和全參數微調，臺灣杉2號都能應付。所謂的標準條件是指，搭配預訓練的資料量為模型參數的20倍，亦即國網中心臺灣杉2號，面對7B模型進行預訓練（搭配1,400億個Token訓練資料）還是對13B模型預訓練（搭配2,400億個Token資料量）需求，都可以勝任。就算資料量多一些，臺灣杉2號也能處理，只是所需時間長了點。

「但若是70B版模型預訓練，國網中心算力可能就不太夠了。」張朝亮解釋，這是因為，Meta從無到有訓練Llama 2時，需要上千甚至上萬片A100 GPU，所需時間大約為6個月，而臺灣杉2號採用相對低階的V100 GPU，效能約為1：3。若以臺灣杉2號進行70B模型預訓練，可能得花上9個月至1年。再者，臺灣杉2號還得支援其他AI專案，無法全力發展單一LLM專案。

如何提供夠用的算力，正是國網中心協助國科會打造TAIDE模型時，所面臨的挑戰。

助國科會打造臺版LLM，平行運算是關鍵

今年4月28日，國科會TAIDE計畫正式展開，國網中心隨即提供臺灣杉2號算力，來協助發展臺版LLM。經過數月發展，國科會現已提供繁中優化的TAIDE 7B模型，供企業和公部門簽約使用，預計明年初提供13B版本模型，同時展開70B模型優化工作。

國科會TAIDE模型能一步步順利上架，一大關鍵是高效能運算，尤其是平行化運算。張朝亮是該領域專家，他專攻流體力學和高效能平行計算，不只在美國NASA從事研究工作34年，回臺接任國網中心主任後，也親自參與TAIDE模型的平行運算和性能調校工作。

他點出，平行運算並非新發明，在高效能運算領域中已發展數十年，是項成熟技術。他自己從事科學工程運算時，就時常運用，只是在AI運算領域，作法稍有不同。「平行運算的原理很簡單，」張朝亮說明，好比一臺電腦執行一項任務，需要10天才完成，若同時使用10臺電腦，一天就能完成。以此類推，一臺超級電腦可想像為成千上萬臺電腦組成，執行複雜運算任務時，可透過切分任務，來讓多臺電腦同時執行。

其中一種常見且簡單的平行運算方法，是從資料量下手的資料平行化。意思是，假設AI模型參數量不大，單片GPU就能執行訓練，一臺主機因有8片GPU，就可訓練模型8次。這時，開發者可將訓練資料分割，將每批不同的訓練資料，分別交給各個GPU，同時進行運算，讓模型不斷修正參數。

當模型大到無法用單一GPU執行訓練時，就需要另一種平行化方法來因應。因為模型參數量越大，就需要越多GPU支援，可能是一臺主機，或數十、數百臺或上千臺主機。在這種情形下，每臺主機只負責一部分的模型訓練，而訓練資料的分配和傳輸，就變得十分複雜，也會使模型訓練過程變得冗長。

此時，就需要NVLink和訊息傳輸介面（MPI），來提高主機內和跨主機的資料交換效率。張朝亮指出，傳統科學運算時常使用MPI，使用者得針對每一項平行化和資料傳輸一一寫程式，但在AI領域，有不少現成工具可加速，比如深度學習框架PyTorch提供平行運算工具，將MPI和GPU平行化所需的NVLink等分段工作打包，能根據需求拆解MPI和NVLink任務、自動執行。這種作法，就是張量平行化方法。國網中心在國科會TAIDE計畫初期，就建置了平行化工具，來讓開發團隊進行性能調校。

分階段提升AI算力，還要引進量子電腦

不只是平行化運算加持，這次TAIDE計畫，還進一步提高了臺灣杉2號算力。今年10月，他們購置了9臺主機、共72片H100 GPU，是臺灣杉2號原搭載的V100 GPU第三代，預估效能可達4.8 PFLOPS。

國網中心也以4.8 PFLOPS為基準，預計明年再增加16 PFLOPS算力。這些算力升級，也能用來解決，原本臺灣杉2號可能難以應付70B模型預訓練的問題。至於國網中心的整體算力提升目標，則是要在5年內達到200至300 PFLOPS。

這次的LLM訓練經驗，也影響了張朝亮對下一代AI超級電腦的建置想法。他計畫分年建置，因為這麼做，每年都可購入新機器，能避免基礎設施過時。

甚至，國網中心還規畫引進量子電腦。張朝亮點出，採用量子電腦是世界趨勢，他在剛落幕的2023超級電腦大會中，就見到非常多量子電腦公司和新創，「臺灣一定要及早切入這個領域，否則會落後。」而國網中心的規畫方向有2個，一是觀察量子位元數量發展，以量子位元數多的量子電腦為優先選擇，二是依照世界主流作法，將量子電腦與超級電腦整合，透過超級電腦將資料轉換為適合量子運算的形式，交由量子電腦計算，再將計算結果交給超級電腦，轉換為人類可讀的資料。

國網中心將另外建置超級電腦來與量子電腦溝通，目前規畫中的AI超級電腦，也將撥出一部分來執行這個轉換工作。此外，國網中心也打算引進可模擬量子電腦的工具cuQuantum，來提高量子電腦模擬在GPU的運算效率。

鼓勵企業、新創運用超算資源

「AI和算力，是接下來幾年非常重要的國家發展指標。」張朝亮認為，臺灣不只要發展高速運算的基礎建設，還要鼓勵企業和學研界挑戰「大題目」。他觀察，過去幾年，臺灣研究風氣保守，「我們鼓勵大家發表論文，但沒有鼓勵大家提出解決大問題的機制。」他認為，ChatGPT之所以存在，是因為有勇於挑戰大題目的文化DNA。

「我希望未來幾年，能夠改變這樣的想法。」為鼓勵專家挑戰大題目、勇於使用大算力解決大問題，張朝亮分享個人觀點，政府在編排研究補助專案時，也許可直接命題，提出如TAIDE這類需要超級電腦運算的大計畫，來編排經費、鼓勵專家投入研究。

不只如此，張朝亮還點出，國網中心正擬定計畫，要鼓勵中小企業、新創產業使用超級電腦。亦即在下一代AI超級電腦發展的幾年，國網中心將針對出眾的提案，提供「非常優惠的價格，甚至免費，來讓提案企業和新創使用上百PFLOPS效能的超級電腦，」他說。

相關報導