3月6日凌晨,阿里云发布并开源全新的推理模型通义千问QwQ-32B。官方称,这个新模型仅仅拥有320亿参数,但在性能上比肩6710亿参数的满血版DeepSeek R1。
目前,阿里云并未发布还完整技术报告,但官方数据显示,QwQ-32B仅在编程竞赛(LiveCodeBench)和美国数学竞赛(AIME24)两项略逊于满血的DeepSeek-R1,其余三项则全面超越。此外更是碾压完全超越了OpenAI-o1-mini。
阿里云解释称,团队此次基于Qwen2.5-32B模型,探索了扩展强化学习(RL)的技术方案,并发现强化学习训练能够持续提升模型性能,尤其在数学与编程任务中表现显著。该团队还提到,通过持续扩展强化学习训练的规模,中型模型也可以实现与巨型混合专家模型(MoE)相媲美的性能。
此外,QwQ-32B还满足更低的资源消耗需求,适合快速响应或对数据安全要求高的应用场景,开发者和企业可以在消费级显卡上将其部署到本地设备中,进一步打造高度定制化的AI解决方案。阿里称,QwQ-32B已多个平台基于宽松的Apache2.0协议开源,所有人都可免费下载模型进行本地部署,或者通过阿里云百炼平台直接调用模型API服务。
值得一提的是,此前OpenAI曾因遇到技术瓶颈,将原来的GPT5.0降格为GPT4.5进行发布,之后还透露将降低强化学习训练的优先级,转向监督学习(SSL)和语言模型(LM)为核心的技术路线。而QwQ-32B的发布则证明了强化学习路线仍有潜力,可以继续提升模型的性能。
千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。通义团队表示,未来将继续探索将智能体与强化学习的集成,以实现长时推理,探索更高智能进而最终实现AGI的目标。