【本土LLM：國科會TAIDE】打造臺版LLM供企業和公部門免費使用，還要開源繁中資料集-HUIDU Official Website

【本土LLM：國科會TAIDE】打造臺版LLM供企業和公部門免費使用，還要開源繁中資料集

· 2023-12-01

國科會以開源LLM為基礎，3步驟訓練出了懂臺灣用語的TAIDE模型，也將開源釋出給企業和公部門使用。對臺灣AI的長期發展更關鍵的下一步是建置繁中資料集

國科會TAIDE計畫負責人李育杰指出，這次計畫不僅提供公部門和企業簽約免費使用TAIDE模型，還會陸續釋出高品質的繁中訓練資料集，來推動臺灣LLM發展。

「臺灣也要有自己的ChatGPT！」這是國科會主委吳政忠在今年2月新春記者會上揭露的重磅消息。

現在，10個月過去了，國科會打造的臺版ChatGPT不只有70億參數模型的初步成果，也開始進入公部門應用討論階段，更預計明年初釋出130億參數版本供企業和公部門免費使用，並展開700億參數的模型訓練。這套模型名為可信任AI對話引擎（簡稱TAIDE），以繁體中文資料訓練而成，主打以臺灣文化為基底，具備臺灣特有用語、價值觀和文化知識，能回答在地使用者問題。

國科會TAIDE團隊，如何發展臺版大型語言模型（LLM）？

3階段打造本土化基礎模型

他們採成本高、步驟最完整的方法來打造TAIDE。有別於從無到有自行開發一套模型，團隊以開源LLM為基礎，利用自行建置的繁中語料，來對LLM進行連續預訓練（Continual pretraining）、微調和人類回饋強化學習（RLHF）等3階段優化，完成品即是TAIDE模型。

第一階段的連續預訓練，是要用大量繁中資料，來讓模型學習基礎知識。更貼切的形容是，讓模型學會文字接龍，比如「臺」後有70%機率接「灣」、10%機率接「北」、4%機率接「中」等，讓模型「從訓練資料中，了解字與字之間的條件機率分布，」李育杰說。

為盡可能建置足夠量的訓練資料集，TAIDE團隊收集了新聞、政府公開資訊和研究資訊、繁中維基百科和學術論文等10種資料，製作成繁中語料集，來訓練模型。由於這階段使用的資料量最多，通常是模型參數量的20倍，例如70億參數，需要多達140億個訓練Token。因此最耗費運算資源，訓練時間最長，若無建構良好的高速平行運算環境，可能耗費數月之久，難以符合現實要求。

再來是微調（Fine-tune）階段，也就是用問答組資料，來讓模型學習特定任務，比如翻譯。微調作法又可細分為2種，一是全參數微調，較耗費運算資源，但模型學習成效較好。另一種是參數高效能微調（PEFT），也就是採用LoRA、P-Tuning等常見壓縮技術，只對模型部分參數微調，以較省運算資源的方式，來試圖達到全參數微調的效果。

在這個階段，TAIDE團隊收集了42萬筆資料，包括ChatGPT問答組、繁中翻譯的rm-static資料集、新聞摘要等，採較吃力的全參數微調方式，來讓模型學習特定任務。最後一階段是RLHF，也就是以人工標註模型回答，再以這個回饋來改善模型，如用語更符合臺灣文化和知識。這期間，TAIDE團隊也找來專攻自然語言處理的師生團隊協作開發。

李育杰指出，經這3階段訓練的TAIDE，可作為基礎模型，來讓公家機關或企業，以少量資料微調模型即可應用。使用者也可搭配自家資料庫，以檢索強化方式（RAG），來限制模型回答範圍、降低幻覺，給出更精準的答案。

改以Llama 2為基礎打造臺版LLM

今年4月28日，TAIDE計畫正式展開，團隊首先嘗試不同的開源模型，如BLOOM、第一代LLaMA等。他們發現，LLaMA中文表現最好，因此以它為基礎，來進行預訓練、微調和RLHF。

由於LLaMA只開放學術研究授權，TAIDE團隊打算先優化LLaMA來供學術研究使用，日後再尋找其他商用授權的LLM，來發展臺灣企業可用的基礎模型。今年6月時，他們展示了TAIDE第一階段成果，也就是以繁中資料優化的LLaMA 70億參數版本，已能執行自動摘要、翻譯、寫信、寫文章等4大任務，且用語符合臺灣文化，表現也比未優化的LLaMA-7b、科大訊飛-7b和Bloom-3b-zh等模型要好。

7月下旬，Meta釋出Llama 2，不只開放學術研究和商用授權，表現還比第一代好。於是，國科會團隊改以Llama 2為基礎，原本打算分別進行學術研究和商用的模型訓練，現在可以同步發展，省下許多功夫。

他們從Llama 2 70億參數版本開始進行預訓練、微調和RLHF工作，打造為TAIDE 7B模型。接著也對130億參數的Llama-2-13b-chat模型進行3階段優化，包括以30億個Token的繁中資料進行連續預訓練、以42萬筆資料進行微調和RLHF工作，打造出Taide-Llama-2-13b-Chat模型。

他們以17種任務來測試模型能力，如寫作、摘要、翻譯、寫程式等，再以GPT-4比較TAIDE模型與其他模型的回答，並打分數。結果，Taide-LLaMA2-13B-Chat大勝第一階段展示的TAIDE模型，但這個版本的模型還需更多資料進一步優化，才能正式開放使用。

10月進入公部門討論，預計明年初上架13B模型

打造臺版LLM很重要，但更重要的是如何落地。為此，國科會TAIDE團隊設置使用者帳號、建立使用平臺，並在10月和11月，陸續舉辦中央和地方公部門的應用工作坊，先讓公部門嚐鮮TAIDE 7B功能、發想可行專案。同時，「我們也開放業界申請，企業簽訂MOU就能免費使用TAIDE模型。」李育杰指出，這正是國科會構想TAIDE計畫時的重要考量，政府出資建造模型，不只彌補國外LLM方案可能的不足，還要帶來產業效益，供企業自行使用或優化服務。

隨著國網中心在10月購入72片H100 GPU，接下來團隊將用這個算力，來優化130億參數的TAIDE模型，讓它具備多輪對話能力，更能記住使用者先前的對話，讓任務執行更有連貫性。

他們預計明年初釋出TAIDE 130億參數版本，同時展開700億參數版本模型訓練，預計明年4月完工。不過，由於TAIDE計畫將於明年4月28日到期，「我們正在想辦法長期維運，讓TAIDE繼續營運下去，」李育杰說。

另一方面，在發展TAIDE的過程中，還有一大挑戰要解決。「我們的訓練資料目前還不夠！」李育杰坦言，撇除無版權的網路公開資料，團隊還需要新聞和出版物等資料，才夠建置完整的訓練資料集。也因此，TAIDE團隊正向新聞媒體、出版社等機構，一一取得授權，來製作訓練模型的繁中語料。

為打造LLM而取得資料授權，是必須的嗎？「我請教過創立CC授權機制的哈佛大學教授Lawrence Lessig，他表示，將資料用於連續預訓練，屬於合理使用範圍，不需取得授權。」李育杰說明，預訓練目的是要模型學會字與字之間的機率分布，理應不會發生抄襲問題。

但他與團隊還是想取得授權，不只為了製作TAIDE訓練資料集，還有一個更大的願景：開源這些高品質繁中語料。

開源繁中資料集來提高國際參與

「TAIDE計畫走到現在，更讓我體認到，臺灣需要龐大且高品質的繁中語料庫！」李育杰深知，繁中資料集稀缺，難以帶動本地LLM技術發展，但「有系統地收整資料、發展國家性的繁體中文語料庫，不只對TAIDE模型訓練有幫助，對未來的LLM研發，甚至是整體AI發展，都會有很大的影響。」

有了這些資料集，臺灣也更有機會參與國際AI研究。他舉例，如OpenAI、Google、Meta等科技巨頭打造新一代LLM時，就能使用臺灣開源的繁中語料。目前，TAIDE計畫已陸續釋出一些資料集，如字典、法規資料庫、中央社中文新聞等，未來還會釋出更多。李育杰坦言，建置繁中資料集猶如打造公共財，需要如數位典藏的國家性計畫和經費來推動，但TAIDE計畫是個起點，透過計畫拋磚引玉、讓更多人知道建置資料集的重要性，是推動臺灣AI進展的重要一步。

相關報導