【本土LLM:國科會TAIDE】打造臺版LLM供企業和公部門免費使用,還要開源繁中資料集
· 2023-12-01

國科會以開源LLM為基礎,3步驟訓練出了懂臺灣用語的TAIDE模型,也將開源釋出給企業和公部門使用。對臺灣AI的長期發展更關鍵的下一步是建置繁中資料集

國科會TAIDE計畫負責人李育杰指出,這次計畫不僅提供公部門和企業簽約免費使用TAIDE模型,還會陸續釋出高品質的繁中訓練資料集,來推動臺灣LLM發展。

「臺灣也要有自己的ChatGPT!」這是國科會主委吳政忠在今年2月新春記者會上揭露的重磅消息。

現在,10個月過去了,國科會打造的臺版ChatGPT不只有70億參數模型的初步成果,也開始進入公部門應用討論階段,更預計明年初釋出130億參數版本供企業和公部門免費使用,並展開700億參數的模型訓練。這套模型名為可信任AI對話引擎(簡稱TAIDE),以繁體中文資料訓練而成,主打以臺灣文化為基底,具備臺灣特有用語、價值觀和文化知識,能回答在地使用者問題。

國科會TAIDE團隊,如何發展臺版大型語言模型(LLM)?

3階段打造本土化基礎模型

他們採成本高、步驟最完整的方法來打造TAIDE。有別於從無到有自行開發一套模型,團隊以開源LLM為基礎,利用自行建置的繁中語料,來對LLM進行連續預訓練(Continual pretraining)、微調和人類回饋強化學習(RLHF)等3階段優化,完成品即是TAIDE模型。

第一階段的連續預訓練,是要用大量繁中資料,來讓模型學習基礎知識。更貼切的形容是,讓模型學會文字接龍,比如「臺」後有70%機率接「灣」、10%機率接「北」、4%機率接「中」等,讓模型「從訓練資料中,了解字與字之間的條件機率分布,」李育杰說。

為盡可能建置足夠量的訓練資料集,TAIDE團隊收集了新聞、政府公開資訊和研究資訊、繁中維基百科和學術論文等10種資料,製作成繁中語料集,來訓練模型。由於這階段使用的資料量最多,通常是模型參數量的20倍,例如70億參數,需要多達140億個訓練Token。因此最耗費運算資源,訓練時間最長,若無建構良好的高速平行運算環境,可能耗費數月之久,難以符合現實要求。

再來是微調(Fine-tune)階段,也就是用問答組資料,來讓模型學習特定任務,比如翻譯。微調作法又可細分為2種,一是全參數微調,較耗費運算資源,但模型學習成效較好。另一種是參數高效能微調(PEFT),也就是採用LoRA、P-Tuning等常見壓縮技術,只對模型部分參數微調,以較省運算資源的方式,來試圖達到全參數微調的效果。

在這個階段,TAIDE團隊收集了42萬筆資料,包括ChatGPT問答組、繁中翻譯的rm-static資料集、新聞摘要等,採較吃力的全參數微調方式,來讓模型學習特定任務。最後一階段是RLHF,也就是以人工標註模型回答,再以這個回饋來改善模型,如用語更符合臺灣文化和知識。這期間,TAIDE團隊也找來專攻自然語言處理的師生團隊協作開發。

李育杰指出,經這3階段訓練的TAIDE,可作為基礎模型,來讓公家機關或企業,以少量資料微調模型即可應用。使用者也可搭配自家資料庫,以檢索強化方式(RAG),來限制模型回答範圍、降低幻覺,給出更精準的答案。

改以Llama 2為基礎打造臺版LLM

今年4月28日,TAIDE計畫正式展開,團隊首先嘗試不同的開源模型,如BLOOM、第一代LLaMA等。他們發現,LLaMA中文表現最好,因此以它為基礎,來進行預訓練、微調和RLHF。

由於LLaMA只開放學術研究授權,TAIDE團隊打算先優化LLaMA來供學術研究使用,日後再尋找其他商用授權的LLM,來發展臺灣企業可用的基礎模型。今年6月時,他們展示了TAIDE第一階段成果,也就是以繁中資料優化的LLaMA 70億參數版本,已能執行自動摘要、翻譯、寫信、寫文章等4大任務,且用語符合臺灣文化,表現也比未優化的LLaMA-7b、科大訊飛-7b和Bloom-3b-zh等模型要好。

7月下旬,Meta釋出Llama 2,不只開放學術研究和商用授權,表現還比第一代好。於是,國科會團隊改以Llama 2為基礎,原本打算分別進行學術研究和商用的模型訓練,現在可以同步發展,省下許多功夫。

他們從Llama 2 70億參數版本開始進行預訓練、微調和RLHF工作,打造為TAIDE 7B模型。接著也對130億參數的Llama-2-13b-chat模型進行3階段優化,包括以30億個Token的繁中資料進行連續預訓練、以42萬筆資料進行微調和RLHF工作,打造出Taide-Llama-2-13b-Chat模型。

他們以17種任務來測試模型能力,如寫作、摘要、翻譯、寫程式等,再以GPT-4比較TAIDE模型與其他模型的回答,並打分數。結果,Taide-LLaMA2-13B-Chat大勝第一階段展示的TAIDE模型,但這個版本的模型還需更多資料進一步優化,才能正式開放使用。

10月進入公部門討論,預計明年初上架13B模型

打造臺版LLM很重要,但更重要的是如何落地。為此,國科會TAIDE團隊設置使用者帳號、建立使用平臺,並在10月和11月,陸續舉辦中央和地方公部門的應用工作坊,先讓公部門嚐鮮TAIDE 7B功能、發想可行專案。同時,「我們也開放業界申請,企業簽訂MOU就能免費使用TAIDE模型。」李育杰指出,這正是國科會構想TAIDE計畫時的重要考量,政府出資建造模型,不只彌補國外LLM方案可能的不足,還要帶來產業效益,供企業自行使用或優化服務。

隨著國網中心在10月購入72片H100 GPU,接下來團隊將用這個算力,來優化130億參數的TAIDE模型,讓它具備多輪對話能力,更能記住使用者先前的對話,讓任務執行更有連貫性。

他們預計明年初釋出TAIDE 130億參數版本,同時展開700億參數版本模型訓練,預計明年4月完工。不過,由於TAIDE計畫將於明年4月28日到期,「我們正在想辦法長期維運,讓TAIDE繼續營運下去,」李育杰說。

另一方面,在發展TAIDE的過程中,還有一大挑戰要解決。「我們的訓練資料目前還不夠!」李育杰坦言,撇除無版權的網路公開資料,團隊還需要新聞和出版物等資料,才夠建置完整的訓練資料集。也因此,TAIDE團隊正向新聞媒體、出版社等機構,一一取得授權,來製作訓練模型的繁中語料。

為打造LLM而取得資料授權,是必須的嗎?「我請教過創立CC授權機制的哈佛大學教授Lawrence Lessig,他表示,將資料用於連續預訓練,屬於合理使用範圍,不需取得授權。」李育杰說明,預訓練目的是要模型學會字與字之間的機率分布,理應不會發生抄襲問題。

但他與團隊還是想取得授權,不只為了製作TAIDE訓練資料集,還有一個更大的願景:開源這些高品質繁中語料。

開源繁中資料集來提高國際參與

「TAIDE計畫走到現在,更讓我體認到,臺灣需要龐大且高品質的繁中語料庫!」李育杰深知,繁中資料集稀缺,難以帶動本地LLM技術發展,但「有系統地收整資料、發展國家性的繁體中文語料庫,不只對TAIDE模型訓練有幫助,對未來的LLM研發,甚至是整體AI發展,都會有很大的影響。」

有了這些資料集,臺灣也更有機會參與國際AI研究。他舉例,如OpenAI、GoogleMeta等科技巨頭打造新一代LLM時,就能使用臺灣開源的繁中語料。目前,TAIDE計畫已陸續釋出一些資料集,如字典、法規資料庫、中央社中文新聞等,未來還會釋出更多。李育杰坦言,建置繁中資料集猶如打造公共財,需要如數位典藏的國家性計畫和經費來推動,但TAIDE計畫是個起點,透過計畫拋磚引玉、讓更多人知道建置資料集的重要性,是推動臺灣AI進展的重要一步。

 相關報導 

Popular articles
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
British gambling levy rates confirmed for each vertical
Regulation
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Indiana online casino bill stalls in House committee
Regulation
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
Kazakhstan plans to penalise online casino promotions
Regulation
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
Home
Game
Cooperation
Find
My