阿里巴巴发布具备325亿个参数的QwQ-32B-Preview模型
支付動態 · 2024-11-29

阿里巴巴的Qwen Team发布QwQ-32B-Preview,这个强调推论能力的实验性研究模型,在AIME及MATH-500基准测试上的表现,胜过了OpenAI的o1-preview

阿里巴巴Qwen Team发布强调推论能力的QwQ-32B-Preview,官方数据显示在某些数学能力基准测试上的表现,优于OpenAI的o1-preview。(/阿里巴巴)

阿里巴巴的Qwen Team本周发布了QwQ-32B-Preview,这是一个具备325亿个参数,脉络长度为32,768个Token,强调推论能力的实验性研究模型,在AIME及MATH-500等数学能力基准测试上的表现,胜过了OpenAI的o1-preview,在程序生成及解决编程问题的LiveCodeBench测试上亦有出色的表现。开发人员已可通过Hugging Face存取该模型。

Qwen团队指出,借由深入探索及无数试验,发现当模型有足够的时间思考、质疑及反射时,它对数学与代码的理解就会深化,这种细致的反思与自我质疑的过程,令模型能够取得解决复杂问题的突破性进展,并在许多测试上取得卓越的成绩,像是评测高级科学问题解决能力的GPQA,涵盖算数、代数、几何与概率等中学数学的AIME,包含500个测试样本的MATH-500,以及实际生成代码的LiveCodeBench。

QwQ-32B-Preview在AIME与MATH-500的测试成绩分别达到50与90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成绩则是65.2及50,低于o1-preview的72.3及53.6。

不过,QwQ-32B-Preview模型目前仍有许多问题,包括它可能会在回答中使用不同的语言,影响表达的连异性;在处理复杂的逻辑问题时,偶尔会落入无尽的循环;可能产生不恰当或具偏见的回答;除了数学及代码之外,它在其它领域仍有进步空间。

此外,根据TechCrunch的报导,由于这是中国制的模型,因此已自行内置各种符合该国政策的审核机制,例如它不会回应针对天安门事件的询问,还说台湾是中国不可分割的一部分。先前TechCrunch也曾发现,由中国快手所建置的视频生成模型Kling,也会拒绝生成有关中国国家主席习近平的视频。

热门文章
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
英国确认各垂直行业的赌博税税率
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
BETFAIR 网络攻击80万用户资料泄露
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
首页
游戏
合作
发现
我的