阿里巴巴釋出具備325億個參數的QwQ-32B-Preview模型
支付動態 · 2024-11-29

阿里巴巴的Qwen Team釋出QwQ-32B-Preview,這個強調推論能力的實驗性研究模型,在AIME及MATH-500基準測試上的表現,勝過了OpenAI的o1-preview

阿里巴巴Qwen Team釋出強調推論能力的QwQ-32B-Preview,官方數據顯示在某些數學能力基準測試上的表現,優於OpenAI的o1-preview。(/阿里巴巴)

阿里巴巴的Qwen Team本周釋出了QwQ-32B-Preview,這是一個具備325億個參數,脈絡長度為32,768個Token,強調推論能力的實驗性研究模型,在AIME及MATH-500等數學能力基準測試上的表現,勝過了OpenAI的o1-preview,在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。

Qwen團隊指出,藉由深入探索及無數試驗,發現當模型有足夠的時間思考、質疑及反射時,它對數學與程式碼的理解就會深化,這種細致的反思與自我質疑的過程,令模型能夠取得解決複雜問題的突破性進展,並在許多測試上取得卓越的成績,像是評測高階科學問題解決能力的GPQA,涵蓋算數、代數、幾何與概率等中學數學的AIME,包含500個測試樣本的MATH-500,以及實際生成程式碼的LiveCodeBench。

QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成績則是65.2及50,低於o1-preview的72.3及53.6。

不過,QwQ-32B-Preview模型目前仍有許多問題,包括它可能會在回答中使用不同的語言,影響表達的連異性;在處理複雜的邏輯問題時,偶爾會落入無盡的循環;可能產生不恰當或具偏見的回答;除了數學及程式碼之外,它在其它領域仍有進步空間。

此外,根據TechCrunch的報導,由於這是中國製的模型,因此已自行內建各種符合該國政策的審核機制,例如它不會回應針對天安門事件的詢問,還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現,由中國快手所建置的影片生成模型Kling,也會拒絕生成有關中國國家主席習近平的影片。

Popular articles
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Indiana online casino bill stalls in House committee
Regulation
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Kazakhstan plans to penalise online casino promotions
Regulation
British gambling levy rates confirmed for each vertical
Regulation
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
Home
Game
Cooperation
Find
My