阿里发布QwQ-32B AI模型表现更胜 DeepSeek MacBook Pro 也可本机运行
阿里旗下Qwen团队近日重磅推出QwQ-32B AI模型,这款仅有320亿参数的模型,效能竟能与拥有6,710亿参数(其中370亿启动)的DeepSeek-R1一较高下。 团队透露,这一突破来自强化学习技术的巧妙应用,并为模型注入 Agent 能力,让它不仅能使用工具,还能批判思考并即时调整推理。 从数学推理到编程,这款模型在多项基准测试中表现亮眼,甚至连笔记本都能运行,令人惊叹!

强化学习打造高效模型
目录
QwQ-32B 的核心亮点在于其训练方式。 Qwen 团队从冷启动开始,采用大规模强化学习(RL)技术,特别针对数学和编程任务进行优化。 不同于传统依赖奖励模型的做法,他们通过验证数学答案的正确性提供反馈,并利用代码执行服务器测试生成的代码是否通过案例。 这种精准反馈机制,让模型在训练过程中逐步提升,展现出惊人的任务适应力。
通用能力全面进化
在数学与编程训练告一段落后,团队并未止步,而是启动第二阶段的强化学习,聚焦通用能力的提升。 这次他们结合通用奖励模型与基于规则的验证器,让QwQ-32B在更广泛的应用场景中表现出色。 令人惊喜的是,这一过程不仅强化了通用性,还保持了数学与编程领域的高水平,展现多领域均衡发展的潜力。
基准测试傲视群雄
QwQ-32B 在多项基准测试中大放异彩,涵盖数学推理、编程能力与通用任务。 其表现不仅媲美DeepSeek-R1-Distilled-Qwen-32B和DeepSeek-R1-Distilled-Llama-70B,甚至超越 o1-mini以及原始的DeepSeek-R1。 这意味着,尽管参数量远低于对手,QwQ-32B 依然能凭借优化技术站稳顶尖位置。

笔记本运行开启新可能
更令人振奋的是,QwQ-32B 不仅强大,还极具实用性。 苹果机器学习科学家Awni Hannun 在 X 平台透露,他使用搭载 M4 Max 处理器与 MLX 深度学习框架的笔记本成功运行这款模型。 这表示,即便是普通用户也能在日常设备上体验顶级 AI 的威力,无需依赖庞大服务器,大幅降低使用门槛。

开源共享惠及全球
Qwen 团队将QwQ-32B在 Hugging Face 和 ModelScope 开源,采用 Apache 2.0 协议,并通过 Qwen Chat 提供直接体验。
