清华大学与上海交通大学的一项新研究,已在世界领先的机器学习会议 NeurIPS 上获得最高荣誉,指出可验证奖励强化学习(RLVR)虽能提升大型语言模型(LLMs)的效率,却未能赋予其新的推理能力。 这项发现引发了研究人员对于基准测试解读以及 AI 真正推理能力衡量的争论。

RLVR 机制与效率限制
RLVR 主要用于训练推理模型,处理数学、编程与视觉推理等具有可验证结果的任务。 它不依赖人类反馈,而是使用正确计算或通过的代码测试等自动信号作为奖励标准。 研究表明,RLVR 通过将反应集中在少数高奖励的解决路径上,减少了输出多样性,从而提高了单次尝试成功的机会 (pass@1)。 然而,这种专注也限制了模型探索替代方案的能力。 正如研究负责人Yang Yue指出:「RLVR不像先前所认为的那么强大——它无法让模型解决基础模型无法解决的问题。」
「Pass@k」争议与专家观点
部分研究人员认为,当模型在「pass@k」基准测试中获得数百甚至数千次尝试机会,仅需一次正确答案就算成功时,高通过率可能无法衡量真正的推理能力,而只是表明模型偶然发现正确答案。 研究作者承认,在仅有少数可能答案的任务上,「pass@1024」可能受运气影响,但他们强调,对于猜测不足以解决的更艰难编程和数学测试,相同模式依然存在。 OpenAI 首席执行官 Sam Altman 似乎也意识到这些限制,他认为通过预训练将推理能力与「更大的模型」结合,而非单纯强化,才是推进推理能力与获得「真正新科学知识」的关键。 AI 研究员 Nathan Lambert 则指出,RL 虽然减少了样本的熵值并提升了 pass@1 的效率,但该研究的训练资料范围过于狭窄,未能展示 RL 训练的根本限制。
研究范畴与未来展望
作者们澄清,这篇论文并非声称强化学习永远无法改进推理或超越基础模型的能力。 Yang Yue 强调,该研究专注于从零开始训练的 RL 模型,并未包含思维链微调或知识蒸馏等增强技术。 作者和Yue都同意,额外步骤,例如以监督式微调进行预热启动,能改善推理模型的结果。 研究团队计划在未来研究中引入明确的随机基准线,以更好地控制偶然猜测的影响,并将进行进一步实验,探索 RL 是否以及如何能真正增强 LLM 的推理能力,同时指出结果可能会随着模型和数据集的扩大而有所转变。
微信扫一扫
