阿里巴巴釋出具備325億個參數的QwQ-32B-Preview模型
支付動態 · 2024-11-29

阿里巴巴的Qwen Team釋出QwQ-32B-Preview,這個強調推論能力的實驗性研究模型,在AIME及MATH-500基準測試上的表現,勝過了OpenAI的o1-preview

阿里巴巴Qwen Team釋出強調推論能力的QwQ-32B-Preview,官方數據顯示在某些數學能力基準測試上的表現,優於OpenAI的o1-preview。(/阿里巴巴)

阿里巴巴的Qwen Team本週釋出了QwQ-32B-Preview,這是一個具備325億個參數,脈絡長度為32,768個Token,強調推論能力的實驗性研究模型,在AIME及MATH-500等數學能力基準測試上的表現,勝過了OpenAI的o1-preview,在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。

Qwen團隊指出,藉由深入探索及無數試驗,發現當模型有足夠的時間思考、質疑及反射時,它對數學與程式碼的理解就會深化,這種細致的反思與自我質疑的過程,令模型能夠取得解決複雜問題的突破性進展,並在許多測試上取得卓越的成績,像是評測高階科學問題解決能力的GPQA,涵蓋算數、代數、幾何與機率等中學數學的AIME,包含500個測試樣本的MATH-500,以及實際生成程式碼的LiveCodeBench。

QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成績則是65.2及50,低於o1-preview的72.3及53.6。

不過,QwQ-32B-Preview模型目前仍有許多問題,包括它可能會在回答中使用不同的語言,影響表達的連異性;在處理複雜的邏輯問題時,偶爾會落入無盡的循環;可能產生不恰當或具偏見的回答;除了數學及程式碼之外,它在其它領域仍有進步空間。

此外,根據TechCrunch的報導,由於這是中國製的模型,因此已自行內建各種符合該國政策的審核機制,例如它不會回應針對天安門事件的詢問,還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現,由中國快手所建置的影片生成模型Kling,也會拒絕生成有關中國國家主席習近平的影片。

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的