微軟開發出擅長解決數學問題的Orca-Math小型語言模型
· 2024-03-07

微軟延續其小型語言模型Orca的研究,開發Orca-Math模型,經代理指導(AgentInstruct)與迭代學習(Iterative Learning),該模型解決小學數學問題的能力已經超越大型語言模型

微軟在其小型語言模型Orca和Orca 2的研究基礎上,發展出了Orca-Math,這個新模型的特點在於,雖然僅為70億參數的小模型,但是經過代理指導(AgentInstruct)與迭代學習(Iterative Learning)的微調過程,其解決小學數學問題的能力已能超越大型語言模型,而數學過去被認為是對小型語言模型較困難的領域。

微軟在去年6月發表了130億參數的小型語言模型Orca,並在11月的時候更新釋出Orca 2,而Orca系列的研究貢獻在於,微軟證明改進訓練訊號和方法,能夠強化小型語言模型,使其接近大型語言模型的推理能力。Orca-Math也是依循相同的想法所開發出來的特化小型語言模型。

Orca-Math是一款以Mistral 7B模型為基礎,針對解決數學問題任務微調的70億參數語言模型,可在基準測試GSM8K pass@1達到86.81%,而這超過了通用模型LLAMA-2-70、Gemini Pro以及GPT-3.5的表現,甚至也超過專為數學開發的模型像是MetaMath-70B和WizardMa8th-70B。Mistral 7B未經微調的GSM8K準確率則是37.83%。

GSM8K是一個數學領域的資料集,全名為Grade School Math 8K,也就是小學數學8,000題的意思,這個資料集包含了8,500題高品質的小學數學應用問題,這些問題需要多步驟推理解決,因此GSM8K被設計來評估和訓練人工智慧模型,尤其是語言模型在數學領域的解題能力。

GSM8K問題涵蓋小學數學的加法、減法、乘法、除法、分數和百分比等,語言模型需要理解問題的脈絡,進行適當的計算才能得到正確的答案。整體來說,GSM8K是一個具有挑戰性的資料集,不只測試模型的運算能力,同時也評估模型以自然語言理解數學問題的能力,是評估和改進人工智慧在數學領域的重要資料集。

要能在GSM8K基準上達到超過80%準確率,通常模型參數量需要超過300億。因此該領域研究人員為了要提高小模型解決問題的能力,需要採取一些特別的方法,像是訓練語言模型生成程式或是使用計算機以避免運算錯誤,也會使用整合(Ensembling)技術,透過多次呼叫模型來重新解決問題,以提高小型語言模型的準確性。雖然Ensembling可有效提升模型效能,但是由於模型可能會被呼叫高達100次,因此運算成本也大幅增加。

微軟在Orca-Math研究中,堅持不用外部工具、驗證器以及Ensembling技術,嘗試提升模型原生能力。主要朝兩個研究方向前進,第一是代理指導,第二則是迭代學習。

過去的研究在合成訓練資料中,常會使用先進模型參考種子問題生成相似的問題,而微軟提到,為了創建更具挑戰性的問題,他們採用AutoGen多代理流程,此方法可創造更多問題範例,同時增加問題的多樣性和難度範圍。

多代理流程配置可以由建議者(Suggester)、編輯者(Editor)、驗證者(Verifier)三個代理組成,由建議者檢查問題並提出多種增加複雜性的方法,而編輯者則接受原始問題和建議者的建議,生成更新、更具挑戰性的問題,並透過迭代多輪來逐漸增加問題的複雜性,並由驗證者檢查新問題是否有解,並創建解決方案。

迭代學習是Orca-Math表現良好的另一個原因,微軟提到,使用高品質訓練資料,可引發像是解釋等更豐富的學習訊號,大幅改進小型語言模型的能力,而這種能力過去僅會在大型語言模型中出現。

微軟將這種範式應用於老師學生訓練方法,由大模型擔任老師,小模型則是學生角色。在示範教學過程,微軟使用代理指導向小型語言模型,展示問題及其解決方案,而在練習與回饋階段,小型語言模型嘗試自己解決問題,並創建多個解決方案,之後才由老師模型對這些解決方案提供回饋,當小型語言模型無法正確解決問題,則由老師模型提供解答。

微軟研究人員不只希望小型語言模型會解決問題,也希望其採用較好的解決方案,因此由老師模型回饋偏好資料,向小型語言模型展示好的與壞的解決方案,並重新訓練小型語言模型。微軟提到,練習、回饋和迭代改進的步驟,會重複多次以提升小型語言模型的能力。

微軟研究結果顯示,在有限範圍小型模型可以表現優異,Orca-Math經過20萬道數學題目的訓練,其在解決數學問題的能力,效能已經能夠與大型語言模型相競爭甚至超越。微軟公開了資料集,還有一份描述訓練程序的報告,以促進小型語言模型的發展。

熱門文章
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的