阿里巴巴发布具备325亿个参数的QwQ-32B-Preview模型-灰度官网

阿里巴巴发布具备325亿个参数的QwQ-32B-Preview模型

支付動態 · 2024-11-29

阿里巴巴的Qwen Team发布QwQ-32B-Preview，这个强调推论能力的实验性研究模型，在AIME及MATH-500基准测试上的表现，胜过了OpenAI的o1-preview

阿里巴巴Qwen Team发布强调推论能力的QwQ-32B-Preview，官方数据显示在某些数学能力基准测试上的表现，优于OpenAI的o1-preview。（／阿里巴巴）

阿里巴巴的Qwen Team本周发布了QwQ-32B-Preview，这是一个具备325亿个参数，脉络长度为32,768个Token，强调推论能力的实验性研究模型，在AIME及MATH-500等数学能力基准测试上的表现，胜过了OpenAI的o1-preview，在程序生成及解决编程问题的LiveCodeBench测试上亦有出色的表现。开发人员已可通过Hugging Face存取该模型。

Qwen团队指出，借由深入探索及无数试验，发现当模型有足够的时间思考、质疑及反射时，它对数学与代码的理解就会深化，这种细致的反思与自我质疑的过程，令模型能够取得解决复杂问题的突破性进展，并在许多测试上取得卓越的成绩，像是评测高级科学问题解决能力的GPQA，涵盖算数、代数、几何与概率等中学数学的AIME，包含500个测试样本的MATH-500，以及实际生成代码的LiveCodeBench。

QwQ-32B-Preview在AIME与MATH-500的测试成绩分别达到50与90，超越OpenAI o1-preview的44.6及85.5，而它在GPQA及LiveCodeBench的成绩则是65.2及50，低于o1-preview的72.3及53.6。

不过，QwQ-32B-Preview模型目前仍有许多问题，包括它可能会在回答中使用不同的语言，影响表达的连异性；在处理复杂的逻辑问题时，偶尔会落入无尽的循环；可能产生不恰当或具偏见的回答；除了数学及代码之外，它在其它领域仍有进步空间。

此外，根据TechCrunch的报导，由于这是中国制的模型，因此已自行内置各种符合该国政策的审核机制，例如它不会回应针对天安门事件的询问，还说台湾是中国不可分割的一部分。先前TechCrunch也曾发现，由中国快手所建置的视频生成模型Kling，也会拒绝生成有关中国国家主席习近平的视频。

热门文章

JILI 宣布与全球板球传奇 AB de Villiers（ABD）达成重磅战略合作

体育游戏