

卓榮泰表示,為維持臺灣在國際間的關鍵戰略地位,必需掌握AI發展,打造臺灣的大型語言模型,符合總統打造臺灣成為AI島的願景,盼國科會持續強化我國AI技術及應用,加強AI的在民間及公部門的應用,提升生產力及行政效率。
以5項任務來評測,評分為0到10分,ChatGPT 3.5得到8.68分,可商用的TAIDE-7B為8.3分,學研用的TAIDE-13B為8.74分。如果以中文mt-bench為評測工具,同樣以0到10分為評分,ChatGPT 3.5得到8.72分,可商用的TAIDE-7B只有6.24分,學研用的TAIDE-13B則是8.48分。
儘管4月底已釋出基於Llama 3的測試版模型,但目前TAIDE模型仍以Llama 2為主,結合繁體中文訓練資料。為了取得繁體中文資料,TAIDE團隊從「字詞語料」、「通用文本」、「特定領域」三方面盤點公私部門的資料,逐一取得授權,目前資料授權單位涵蓋中央部會、地方政府及民間組織,已完成處理的繁體中文資料共113.6GB,用於訓練模型。徐玉梅指出,未來精進及發展更大規模的模型,還需要各界提供更多的資料,以訓練模型。
至於算力方面,原本臺灣杉二號建置32臺Nvidia V100,供TAIDE模型專用。政府去年以1.1億元建置Nvidia H100,並與暨有臺灣杉二號整合,去年12月正式服務,模型訓練所需的時間縮短一半。

為了讓模型符合需求,團隊開發模型的同時,也和產學研合作,例如知識檢索、跨,在產業方面,有業者結合模型開發企業專用的AI一體機,還有知識管理查詢、公文輔助文稿。
徐玉梅表示,在計畫推動一開始,就與產學研共同合作,目前的合作案例,一部分在開發中,部分則已商品化,也有一些正與政府部門接洽,希望推動實際的應用。
目前TAIDE模型的應用已有國臺客語,缺少原住民語言,她補充說明,目前TAIDE以純文字為主,訓練模型需要大量資料,原住民語言資料多以影像、影音為主,原住民語言的資料蒐集比較不易,後續會與原住民委員會,或是從數位典藏國家型計畫尋找可利用的原住民語言資料,TAIDE第一階段為純文字資料,後續會發展多模態發展,蒐集圖片資料。
至於未來產業及公部門如何運用?國科會政務副主委林法正表示,TAIDE為基礎或通用模型,釋出供外界運用,公部門可結合其業務特有的資料,可應用在資料彙整、會議記錄彙整,寫公文,或是回覆民眾的詢問。TAIDE計畫剛開始與教授合作,因此最初應用在教育方面,未來在法律、醫療的應用也正在發展中。
AI快速發展應用,各國制定專門的法規,臺灣也在研擬AI基本法,林法正指出,因AI科技發展非常快,各國在制定基本法上都採取觀望態度,因應外界的期望,國科會原本預定今年底提出基本法給行政院,如果行政院認為有需要提前,可提前至10月提出基本法。