研究人員使用錯誤中學習的人類學習法來訓練AI模型
· 2023-11-06

研究人員提出從錯誤中學習(Learning from Mistake)的LeMA訓練法,以提升開源LLM在數學解題等推理任務上的效能

_arXiv:2310.20689 [cs.CL]

研究人員以2種問題資料集(GSM8K及MATH)實驗LeMa方法對5個開源LLM的效果,並比較只以CoT資料集來微調LLM的效果。結果顯示,以LLaMA-2-70B為例,它在兩種方法下,在GSM8K的準確率分別為83.5%及81.4%,在MATH則分別為25.0%及23.6%。此外,他們也實驗了WizardMath及MetaMath二種專門領域LLM的準確率,在GSM8K資料集測試中,獲致84.2%及85.4% pass@1 準確率,而MATH資料集則達27.1%及26.9%,這個成績超越非執行(non-execution)開源模型在同樣任務中的表現。

此外,他們發現,在同樣資料量的訓練集下,LeMA方法也比純CoT微調來得好。此外,整合CoT資料及修正資料,微調效果更優於單一的微調結果。

研究人員已將LeMA的程式碼、模型、資料公開在GitHub上。

熱門文章
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
首頁
遊戲
合作
發現
我的