明清研究專用非通用!使用開源簡中語料微調LLM模型引起熱議,中研院宣布已下架繁中優化的大型語言模型CKIP-Llama-2-7b
· 2023-10-11

中研院因在訓練階段部分使用了簡中的開源資料集,使得以Llama 2開發的繁中優化的大型語言模型CKIP-Llama-2-7b,在回答提問時可能出現簡中習慣的用語或詞彙,引起社群廣泛討論和關注。

中研院在上周五開源釋出了用Meta的Llama 2所開發的繁中優化的大型語言模型CKIP-Llama-2-7b,並將其放上GitHub等平臺,提供學術和商用。不過,最初在訓練階段部分使用了簡中的開源資料集,導致多任務微調的繁中模型,在回答提問時可能出現簡中習慣的用語或詞彙,引起社群廣泛討論和關注。在模型釋出第4天,中研院資訊所在今日傍晚(10/9)發布聲明稿,宣布已將該模型下架。

中研院此次使用開源商用LLM模型Llama 2所開發的CKIP-LlaMa-2-7b模型,是一項來自中研院內部的計畫,該計畫的目的是要透過繁中優化的大型語言模型,協助研究人員自動化分析和建構中國明清朝代人物的生平圖譜,包括歷史人物、事件、時間、地點等事理圖譜。完成模型後,中研院不僅將其用於內部用途,還將該模型開源,提供給公眾進行試用。

但這是一款用於明清人物,例如朱自清、徐志摩,分析用的特定用途優化LLM,而非通用型的繁中語言模型,因此中研院才使用了與分析對象高度相關的簡中語料來協助分析民國以後的文史資料,而沒有使用詞庫小組原有的資料,也因為這是特定用途短期計畫之用,預算僅30萬元,而非一般通用型語言模型動輒數千萬元或更大規模的投資,但是在釋出專案中,沒有詳細說明這款專用模型的初始訓練用途,讓外界誤以為是通用型的繁中語言模型而有更大的期待。 

為了訓練可以自動化明清人物分析的LLM模型,需要大量文言文的語料。因此,CKIP Lab團隊在構建訓練資料時,也納入了來自中國的簡中語料,以便進行文言文和白話文的相互翻譯,以及詩詞等方面閱讀理解。這也解釋了為什麼中研院沒有使用自己多年累積的中文繁體語料。

CKIP-LlaMa-2-7b模型最初用於明清人物的生平自動化分析使用,中研院強調,因為與「臺版ChatGPT」功能有所不同,許多提問測試並不在其原始研究範疇之內。同時,中研院指出,該模型與國科會正在開發的國產可信任AI對話引擎(TAIDE)無關。

中研院進一步補充說明,這是一項總經費約30萬元的個人小型研究,經費主要用於運算成本支出。為了訓練出這款具有70億參數的CKIP-LlaMa-2-7b模型,中研院租用了4個Nvidia A100 GPU的雲端運算服務系統,共花費了10多天進行模型訓練。

然而,在該模型微調的過程中,由於部分使用含有簡中內容的COIG-PC和dolly開源資料集,導致模型釋出後,許多人在實際測試中發現,中研院的繁中語言模型在回答提問時可能含有簡中習慣的用語或詞彙出現,而引起熱議。負責該計畫的研究人員表示,生成式AI容易產生所謂的「幻覺」(hallucination),使模型生成的內容與預期不符,這是未來要積極改善的領域,並表示未來研究及成果釋出,會更加謹慎。

為了防止類似問題再次發生,中研院強調將建立審核機制,未來,研究人員必須經過審核才能對外公開釋出其相關研究成果。儘管中研院已下架該模型,但對於修正後是否重新上架則沒有多做說明。

热门文章
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
英国确认各垂直行业的赌博税税率
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
首页
游戏
合作
发现
我的