研究人員使用錯誤中學習的人類學習法來訓練AI模型-灰度官网

研究人員使用錯誤中學習的人類學習法來訓練AI模型

· 2023-11-06

研究人員提出從錯誤中學習（Learning from Mistake）的LeMA訓練法，以提升開源LLM在數學解題等推理任務上的效能

_arXiv:2310.20689 [cs.CL]

研究人員以2種問題資料集（GSM8K及MATH）實驗LeMa方法對5個開源LLM的效果，並比較只以CoT資料集來微調LLM的效果。結果顯示，以LLaMA-2-70B為例，它在兩種方法下，在GSM8K的準確率分別為83.5%及81.4%，在MATH則分別為25.0%及23.6%。此外，他們也實驗了WizardMath及MetaMath二種專門領域LLM的準確率，在GSM8K資料集測試中，獲致84.2%及85.4% pass@1 準確率，而MATH資料集則達27.1%及26.9%，這個成績超越非執行（non-execution）開源模型在同樣任務中的表現。

此外，他們發現，在同樣資料量的訓練集下，LeMA方法也比純CoT微調來得好。此外，整合CoT資料及修正資料，微調效果更優於單一的微調結果。

研究人員已將LeMA的程式碼、模型、資料公開在GitHub上。

熱門文章

哈薩克計劃對線上賭場促銷活動進行處罰

合規與政策