台湾繁中LLM另一里程碑!Project TAME以5,000亿个Token训练而成并开源发布
支付動態 · 2024-07-01

今日,一款强大的繁中大型语言模型Project TAME开源发布,由长春集团、和硕联合科技、长庚医院、欣兴电子、科技报橘、专攻法律AI的律果科技与台大资工系、台大资管系联手打造,以Llama-3 70B模型为基础,由5,000亿个Token训练而成。

接着,在技术部分,团队训练的基础模型有两种,包括Meta的80亿参数模型Llama-3 8B和700亿参数Llama-3 70B,采用Nvidia NeMo、Nvidia NeMo Megatron两种训练框架,以及3D平行化、DeepSpeed Zero网络通信优化器和Flash Attention等加速方法与工具,来训练TAME模型。在推论部分,他们采用Nvidia TensorRT-LLM框架运行,另使用Nvidia建置的Taipei-1超级电脑(搭载DGX H100)算力来驱动模型训练与推论。

让模型饱读诗书、具备繁中基础知识后,接下来就进入第二阶段:监督式微调。在这阶段,首先会从数据中取出提示,模型会根据提示来自我对话、生成多轮对话,最后根据这些对话数据来进行监督式微调。这些对话数据涵盖了通用型和知识密集型数据。

完成对话微调后,再来就是最后一阶段,也就是通过模型与真人交互,来根据人类回馈微调模型,确保模型产出与人类偏好一致。为此,团队也繁中LLM竞技场添加TAME,让民众在平台上提问,并根据2个模型给出的回答,来评估模型表现。通过这种方式,就能进一步改善TAME模型的不足之处。

在地文化理解力、专业知识能力实测皆第一

完成3阶段的训练后,接着,团队利用标准化测试题目,来评估Project TAME模型表现。

首先是包含各种本土考试科目的语义理解基准测试TMLU,不只有国高中文科、数理化等考题,还有教师资格、领队、驾驶等考题。经测试,Project TAME的平均分数为71.3%,与Claude 3的73.6相差无几,还胜过GPT-4、Gemini、Llama 3等模型。(如下图)

再来,Project TAME模型还具备在地文化知识,能根据在地文化提示(如网友戏称哪一项早餐店的产品有通肠效果)给出正确回答,正确率是所有评测模型中的最高的,达79.4。

特别的是,Project TAME还在台湾律师考试的选择题部分拿下好成绩,总共209题中拿下60.8分,一样是所有测试模型中的最高分(如下图),意味着TAME具备台湾法律知识,比Claude-3(60.3)、GPT-4o(53.6)、TAIDE 8B(37.8)等模型还要厉害。

Project TAME正式对外开源,不少领域已有初步应用

目前,Project TAME已正式开源,企业可免费下载使用,民众也能至模型聊天页面测试。另有亚太智能机器(APMIC)集成Project TAME,提供聊天机器人测试页供用户测试。

林彦廷表示,为降低企业部署门槛,未来Project TAME可能朝混合专家模型(MoE)形式发展。因为,MoE由好几个专家模型组成,可想像为各有各的擅长领域,因此相较于同参数量的传统LLM,MoE可以其中一个或多个专家来回答问题,以较经济的方式使用运算资源,进而降低模型推论成本。

另一方面,根据团队说明,Project TAME 700亿参数模型符合企业导入的低成本需求,估算只需1,600万台币、短短3.5小时(模型迭代一次)就能利用企业内部数据训练模型,大幅降低导入成本和时间,可优化企业在运营管理、人员训练、产品服务、客服等AI应用。

在实际应用上,则涵盖了电子制造、石化、医疗、法律和媒体等领域。以长春集团为例,他们就应用TAME于自家助理iGenie,搭配RAG数据库,可正确使用繁体字回答公安问题,还能将不同语言、格式的物质安全数据表(SDS),正确转换为中文版本,预计每年可节省330万元的委外翻译费用。(如下图)

此外,长春集团也将TAME用于自家Email服务,如新建摘要、内容提示等,也用于会议逐字稿与摘要生成。

长春集团信息中心资深协理黄至善表示,希望TAME更精进,未来可用于原物料价格预测、企业战情中心信息分析和机器人大脑等3大领域。进一步来说,就价格预测而言,长春集团起初以回归或时间串行模型测试,发现效果不好。

后来ChatGPT这类LLM兴起,他们开始投入研究,其做法是先向LLM(使用GPT-4o)询问价格预测的指针,接着再询问LLM,这些指针出现在哪些网页、能否写支爬虫程序,来协助抓取指针数据。有了数据,最后再询问LLM可用哪种模型来运行预测并写一支预测程序,在得到LLM给出的Transformer程序后,团队将指针数据输入模型,得出的价格预测准确度可达7成,比过往方法有效。不过,他们也分析预测不准确之处,考虑多添加重要新闻,来强化模型表现。(如下图)

就战情中心来说,长春集团信息中心将过去2年、去识别化的内部销售数据与财务数据,再加上外部的关键经济指针,来让ChatGPT分析。他们很惊讶地发现,LLM可给出人类分析师没注意的洞见,因此可呈现在战情中心仪表板,结合其他信息和交互式设计,来提供另一种信息分析服务。(如下图)

在机器人部分,长春集团希望打造通用的实体机器人,可在石化业危险场域代替真人作业。他们也与台大合作,以LLM作为机器人大脑,通过自然语言指令来运行任务,如巡检、仓储物流等,预计明年会有进一步成果。

热门文章
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
首页
游戏
合作
发现
我的