阿里云发布QwQ-32B：仅用1/20参数比肩满血DS-R1，可在消费级显卡部署

3月6日凌晨，阿里云发布并开源全新的推理模型通义千问QwQ-32B。官方称，这个新模型仅仅拥有320亿参数，但在性能上比肩6710亿参数的满血版DeepSeek R1。

点击查看大图

目前，阿里云并未发布还完整技术报告，但官方数据显示，QwQ-32B仅在编程竞赛（LiveCodeBench）和美国数学竞赛（AIME24）两项略逊于满血的DeepSeek-R1，其余三项则全面超越。此外更是碾压完全超越了OpenAI-o1-mini。

阿里云解释称，团队此次基于Qwen2.5-32B模型，探索了扩展强化学习（RL）的技术方案，并发现强化学习训练能够持续提升模型性能，尤其在数学与编程任务中表现显著。该团队还提到，通过持续扩展强化学习训练的规模，中型模型也可以实现与巨型混合专家模型（MoE）相媲美的性能。

此外，QwQ-32B还满足更低的资源消耗需求，适合快速响应或对数据安全要求高的应用场景，开发者和企业可以在消费级显卡上将其部署到本地设备中，进一步打造高度定制化的AI解决方案。阿里称，QwQ-32B已多个平台基于宽松的Apache2.0协议开源，所有人都可免费下载模型进行本地部署，或者通过阿里云百炼平台直接调用模型API服务。

点击查看大图

值得一提的是，此前OpenAI曾因遇到技术瓶颈，将原来的GPT5.0降格为GPT4.5进行发布，之后还透露将降低强化学习训练的优先级，转向监督学习（SSL）和语言模型（LM）为核心的技术路线。而QwQ-32B的发布则证明了强化学习路线仍有潜力，可以继续提升模型的性能。

千问QwQ-32B模型中还集成了与智能体Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。通义团队表示，未来将继续探索将智能体与强化学习的集成，以实现长时推理，探索更高智能进而最终实现AGI的目标。