明清研究專用非通用!使用開源簡中語料微調LLM模型引起熱議,中研院宣布已下架繁中優化的大型語言模型CKIP-Llama-2-7b
· 2023-10-11

中研院因在訓練階段部分使用了簡中的開源資料集,使得以Llama 2開發的繁中優化的大型語言模型CKIP-Llama-2-7b,在回答提問時可能出現簡中習慣的用語或詞彙,引起社群廣泛討論和關注。

中研院在上周五開源釋出了用Meta的Llama 2所開發的繁中優化的大型語言模型CKIP-Llama-2-7b,並將其放上GitHub等平臺,提供學術和商用。不過,最初在訓練階段部分使用了簡中的開源資料集,導致多任務微調的繁中模型,在回答提問時可能出現簡中習慣的用語或詞彙,引起社群廣泛討論和關注。在模型釋出第4天,中研院資訊所在今日傍晚(10/9)發布聲明稿,宣布已將該模型下架。

中研院此次使用開源商用LLM模型Llama 2所開發的CKIP-LlaMa-2-7b模型,是一項來自中研院內部的計畫,該計畫的目的是要透過繁中優化的大型語言模型,協助研究人員自動化分析和建構中國明清朝代人物的生平圖譜,包括歷史人物、事件、時間、地點等事理圖譜。完成模型後,中研院不僅將其用於內部用途,還將該模型開源,提供給公眾進行試用。

但這是一款用於明清人物,例如朱自清、徐志摩,分析用的特定用途優化LLM,而非通用型的繁中語言模型,因此中研院才使用了與分析對象高度相關的簡中語料來協助分析民國以後的文史資料,而沒有使用詞庫小組原有的資料,也因為這是特定用途短期計畫之用,預算僅30萬元,而非一般通用型語言模型動輒數千萬元或更大規模的投資,但是在釋出專案中,沒有詳細說明這款專用模型的初始訓練用途,讓外界誤以為是通用型的繁中語言模型而有更大的期待。 

為了訓練可以自動化明清人物分析的LLM模型,需要大量文言文的語料。因此,CKIP Lab團隊在構建訓練資料時,也納入了來自中國的簡中語料,以便進行文言文和白話文的相互翻譯,以及詩詞等方面閱讀理解。這也解釋了為什麼中研院沒有使用自己多年累積的中文繁體語料。

CKIP-LlaMa-2-7b模型最初用於明清人物的生平自動化分析使用,中研院強調,因為與「臺版ChatGPT」功能有所不同,許多提問測試並不在其原始研究範疇之內。同時,中研院指出,該模型與國科會正在開發的國產可信任AI對話引擎(TAIDE)無關。

中研院進一步補充說明,這是一項總經費約30萬元的個人小型研究,經費主要用於運算成本支出。為了訓練出這款具有70億參數的CKIP-LlaMa-2-7b模型,中研院租用了4個Nvidia A100 GPU的雲端運算服務系統,共花費了10多天進行模型訓練。

然而,在該模型微調的過程中,由於部分使用含有簡中內容的COIG-PC和dolly開源資料集,導致模型釋出後,許多人在實際測試中發現,中研院的繁中語言模型在回答提問時可能含有簡中習慣的用語或詞彙出現,而引起熱議。負責該計畫的研究人員表示,生成式AI容易產生所謂的「幻覺」(hallucination),使模型生成的內容與預期不符,這是未來要積極改善的領域,並表示未來研究及成果釋出,會更加謹慎。

為了防止類似問題再次發生,中研院強調將建立審核機制,未來,研究人員必須經過審核才能對外公開釋出其相關研究成果。儘管中研院已下架該模型,但對於修正後是否重新上架則沒有多做說明。

熱門文章
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的