研究人員使用錯誤中學習的人類學習法來訓練AI模型
· 2023-11-06

研究人員提出從錯誤中學習(Learning from Mistake)的LeMA訓練法,以提升開源LLM在數學解題等推理任務上的效能

_arXiv:2310.20689 [cs.CL]

研究人員以2種問題資料集(GSM8K及MATH)實驗LeMa方法對5個開源LLM的效果,並比較只以CoT資料集來微調LLM的效果。結果顯示,以LLaMA-2-70B為例,它在兩種方法下,在GSM8K的準確率分別為83.5%及81.4%,在MATH則分別為25.0%及23.6%。此外,他們也實驗了WizardMath及MetaMath二種專門領域LLM的準確率,在GSM8K資料集測試中,獲致84.2%及85.4% pass@1 準確率,而MATH資料集則達27.1%及26.9%,這個成績超越非執行(non-execution)開源模型在同樣任務中的表現。

此外,他們發現,在同樣資料量的訓練集下,LeMA方法也比純CoT微調來得好。此外,整合CoT資料及修正資料,微調效果更優於單一的微調結果。

研究人員已將LeMA的程式碼、模型、資料公開在GitHub上。

热门文章
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
首页
游戏
合作
发现
我的