【本土LLM成果:台智雲福爾摩沙大模型】靠3種平行化技術提高訓練效率,加速繁中LLM產品化
· 2023-12-01

平行化運算是訓練LLM不可或缺的關鍵。台智雲在2022年下半年展開研究,以資料平行化、張量平行化和工作流程平行化來打造福爾摩沙系列模型

台智雲在今年5月發表了福爾摩沙大模型,以可商用的開源模型BLOOM為基礎,經連續預訓練、全參數微調和人類回饋強化學習(RLHF)等三階段優化而成。(/台智雲)

以打造臺灣杉2號超級電腦起家的華碩子公司台智雲,在今年5月和9月先後揭露多款繁中語料優化的大型語言模型(LLM),不只有懂臺灣文化的福爾摩沙系列模型(FFM),還有一系列企業級模型開發工具和無程式碼平臺,來供企業使用。

這是除了國科會可信任人工智慧對話引擎(TAIDE)外,另一個具本地知識和用語的LLM選擇。

以繁中資料優化2種開源LLM

台智雲總經理吳漢章指出,5月揭露的福爾摩沙大模型,是以可商用的開源模型BLOOM為基礎,經連續預訓練、全參數微調和人類回饋強化學習(RLHF)等三階段優化而成。

他們用來訓練模型的資料量高達1.5TB,其中包含繁中在內的46種人類語言、13種程式語言等無版權資料,共2千億個Token。他們也針對微調,建置專用的問答組,來強化模型執行特定任務的能力。

經過3個月開發,福爾摩沙模型共有2個版本,也就是1,760億參數版本和70億參數版本。台智雲技術長陳忠誠指出,福爾摩沙模型具備多語言、寫程式和推理能力,在語言部分,不只繁體中文表現優異,可準確回答不少ChatGPT難以答對的問題,還特別加強東南亞語系的語言能力,為未來南向發展做準備。

今年9月,台智雲更進一步揭露新模型FFM-Llama 2,包含70億、130億和700億參數等3種版本。這款模型以Meta開源的Llama 2為基礎,用繁中資料優化而成。與原Llama 2相比,不只能用繁體中文回答問題,而非如Llama 2會以英文回答中文問題,還能在寫程式時,在程式碼中保留所需的中文。

不只如此,台智雲以這些模型為核心,進一步推出企業級大語言模型服務AFS,可細分為AFS Cloud和AFS Appliance兩款產品。前者是雲端託管服務,提供完整訓練過的模型,來讓企業以API呼叫使用,而後者則是地端部署方案,企業可下載大型模型到本地端環境部署,來執行LLM應用。在AFS的預訓練模型庫中,除了有福爾摩沙大模型和FFM-Llama 2模型,還有BLOOMZ、Llama 2、Code Llama等開源模型。

平行化運算是訓練LLM關鍵

打造企業級LLM服務並不容易,台智雲如何能這麼快推出產品?關鍵是算力的準備。

訓練和微調LLM需要大量算力,特別是千億參數的龐大模型BLOOM,更需要一套有效的運算方法。早在2022年下半年,台智雲就開始研究訓練LLM所需的平行運算技術;他們的初始目標是,在臺灣杉2號上,實際用3種平行化方法來訓練BLOOM。

這3種平行化方法,包括將模型水平切割的工作流程平行化、將模型垂直切割的張量平行化,以及使用前述兩種平行化後,再將訓練資料分割給不同GPU群運算的資料平行化。

為實作這3種平行化,他們先修改模型訓練程式碼,來讓模型訓練時,可執行相對應的平行化。接著,他們解決一系列挑戰,比如找到最佳切割組合、讓每張GPU都能發揮最佳效能,以及分割時,解決GPU記憶體不夠用的問題。

陳忠誠還點出,LLM訓練需要好幾個月,團隊不只要實現同時調度大量GPU,比如訓練福爾摩沙大模型,最高調度840片GPU來進行平行化運算,還要注意硬體故障問題,以防止訓練流程中斷。因此,台智雲設計一套機制,能在硬體故障問題修復後,自動開始LLM訓練流程。最終,他們成功在臺灣杉2號上,最高調度840片GPU、同時進行平行化運算來訓練BLOOM。這個成功經驗,也用於FFM-Llama 2的訓練上。

不只是算力,台智雲還有不同方法,來解決LLM訓練問題。比如,為確保訓練資料品質,他們還自建一套自動辨識工具,來篩選訓練資料,比如判斷是否夾雜不預期的語言,是否含不適當內容以及低品質的資料等。

同時,為避免模型發生災難性遺忘,忘記先前學習過的知識,台智雲也特別分配訓練資料集,比如每一批平均涵蓋不同領域的資料、新舊混合等,來讓模型均衡學習。這些方法綜合起來,就打造出具備繁中知識、表現良好的福爾摩沙大模型和FFM-Llama 2。

台智雲也將訓練LLM累積的平行化經驗,發展成容易自助操作的LLM訓練服務。吳漢章表示,他們將平行化技術打包成無程式碼平臺,使用者點擊滑鼠,選擇各種想要微調的模型需求和條件,比如用1,200萬字在1小時內完成Llama 2模型微調的組合條件,系統會自動根據這些條件,來調度相應GPU支援,自動進行平行化的模型訓練任務,來降低企業訓練LLM的門檻。他也揭露台智雲下一步,不只要添加更多模型到AFS,還要往亞洲市場進一步推廣算力服務。

 相關報導 

热门文章
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Indiana online casino bill stalls in House committee
Regulation
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
Kazakhstan plans to penalise online casino promotions
Regulation
British gambling levy rates confirmed for each vertical
Regulation
首页
游戏
合作
发现
我的