中研院正式開源釋出繁中優化的Llama 2大型語言模型,正式採用Apache2.0釋出
· 2023-10-09

中研院CKIP Lab中文詞知識庫小組,最新開源釋出了以Llama 2開發的繁中優化的大型語言模型CKIP-Llama-2-7b,並提供學術和商用,可運用在文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。

中研院公開展示了經過多任務微調訓練的 CKIP-Llama-2-7b-chat 模型。例如,當你輸入「台灣最高的山?」,它可以回答「玉山」,甚至問他「在台灣,什麼是22K?」,模型都能夠提供相應的回答。此外,你也可以要求它針對台灣的特定主題進行討論。如「規劃一下日月潭二日遊」或是能用七言絕句吟詩作對。

其中,CKIP-Llama-2-7b使用了5.8GB資料進行預訓練,總共包含273萬筆資料,大約28億個token數。這些資料包括了中英維基百科、CommonCrawl子集、臺灣碩博士論文摘要、中央研究院漢語平衡語料庫、徐志摩詩歌全集、朱自清散文全集等內容。另外,使用純人工產生的COIG-PC資料集和dolly資料集來進行多任務微調訓練。

根據他們的測試,經過C-Eval中文模型評測結果,CKIP-Llama-2-7b-chat和CKIP-Llama-2-7b模型表現在整體平均都高於Llama2-7b、Atom-7B等模型,例如,CKIP-Llama-2-7b平均分數約37.03,高於Llama2-7b的22.26和Atom-7B 的35.95。甚至多任務微調訓練後的CKIP-Llama-2-7b-chat,平均分更高,有38.39分。

CKIP Lab小組表示,這個模型可應用於各種領域,包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等等。中研院搶先開放測試網頁,開放所有人測試。

除了釋出繁中優化的Llama 2模型,CKIP Lab小組在這之前還有釋出了繁體中文的transformers預訓練模型,包含ALBERT、BERT、GPT2,提供使用者試用,並以GPL-3.0授權釋出。隨著中研院繁中優化的Llama 2模型推出,將有助於加速臺灣繁中大型語言模型研究和商用的發展。

热门文章
BETFAIR 网络攻击80万用户资料泄露
游戏风向
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
英国确认各垂直行业的赌博税税率
游戏风向
首页
游戏
合作
发现
我的