新數學基準測試FrontierMath凸顯AI模型邏輯推理進步空間極大
支付動態 · 2024-11-13

FrontierMath是針對評估人工智慧高階數學推理能力,而設計的數學基準測試,目前市面上知名模型的解題成功率低於2%

Epoch AI 

研究機構Epoch AI推出新的數學基準測試FrontierMath,該基準測試的目的在評估人工智慧模型的高階數學推理能力。不同於現有數學基準,像是GSM-8K和MATH,FrontierMath中的數學問題更加複雜且專業,涵蓋現代數學中的數論、代數與幾何等領域,這些題目的難度非常高,專家也需耗費數小時甚至數天才能解答,而這對人工智慧模型帶來全新考驗。

人工智慧在解決高階數學題目上遭遇困難,主要問題在於人工智慧模型通常仰賴訓練資料中的模式來生成答案,而非真正理解和推理問題的邏輯結構,許多模型的解題過程是基於訓練資料中類似問題的模式比對,而不是建立在數學上嚴謹的邏輯推理,這種模式比對的限制,使得模型在遇到稍微變動的數學問題時就容易出錯。

要提升當前人工智慧模型的數學能力,基準測試不只作為評估人工智慧模型數學能力的工具,同時也提供了模型在數學推理能力上具體的進步方向。現有基準測試GSM-8K和MATH,由於問題難度較低,已經被人工智慧模型完全解決,導致無法評估人工智慧數學推理的上限,而新推出的FrontierMath則補充了現有數學基準測試的不足。

FrontierMath的題目皆為專家全新設計,涵蓋多個高階數學領域,難度遠超過其他基準測試。這些題目不僅要求人工智慧理解數學概念,還需要具備複雜情境的推理能力,避免人工智慧透過簡單的模式比對或模糊語言生成方式作答。由於FrontierMath題目的答案通常是大數,或是各種具體或抽象的複雜數學元素或結構,使其具有防猜測的特性,透過猜測獲得答案的正確機率低於1%。

在FrontierMath初步測試中,目前市場上的人工智慧模型表現普遍不佳,即便能夠在GSM-8K和MATH達到近乎滿分,但是包括Claude 3.5和GPT-4o等知名模型,在FrontierMath的解題成功率均低於2%。研究團隊指出,這些挑戰不是透過增加模型規模就能解決,需要在演算法和推理架構層麵深入改進。

多所學術機構的數學專家都參與審查FrontierMath的題目,確保了基準測試的正確性和難度,且不包含任何模糊性。FrontierMath題庫還會持續擴充,官方未來會定期發布人工智慧模型的測試結果,並與人工智慧社群合作以促進學術交流。

目前人工智慧模型在數學推理方面的侷限性,Apple早前的研究也指出同樣現況,人工智慧模型大多依賴訓練資料中的模式來模擬推理步驟,而非進行真正的邏輯推理。Apple研究人員使用改良過的基準測試GSM-Symbolic測試市面上的模型,研究人員發現,即便是小學程度的數學問題,人工智慧模型的表現也受到限制,當改變數學問題中的數字或增加一個額外的無關條件時,模型的解題準確度就會顯著下降,甚至達到65%的跌幅。

熱門文章
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
首頁
遊戲
合作
發現
我的