来源:DeepTech深科技
小语言模型,是《麻省理工科技评论》评选出的 2025 年“十大突破性技术”之一。人们往往认为大语言模型更擅长做数学题,事实上小语言模型也能做数学题甚至做得更好。
1 月 8 日,由微软亚洲研究院团队领衔的一篇论文在 arXiv 上线。论文中,该团队提出一种新方法并将其命名为 rStar-Math,它能提升小语言模型的数学推理能力,挑战了“参数越大模型越好”的常规观点,为 GPU 资源和财力有限的机构打开了 AI 研发新思路,或能让更多业内人士“花小钱办大事”。
研究中,论文作者团队通过参数在 1.5B-7B 之间的四个小语言模型以及涵盖七个数学推理任务的实验,证明了 rStar-Math 的有效性。
在 rStar-Math 的帮助之下,在无需从高级模型中提炼能力的前提下,让小语言模型的数学推理能力得以媲美甚至超越 OpenAI o1。
研究人员所使用的数学基准测试,包含 12500 个问题,涵盖几何和代数等各个分支以及各个难度级别。
在该测试中,rStar-Math 将 Qwen2.5-Math-7B 模型的准确率从 58.8% 提高到 90.0%,将微软 Phi3-mini-3.8B 模型的准确率从 41.4% 提高到 86.4%,这分别比 OpenAI o1-preview 的准确率高出 4.5% 和 0.9%。
在美国数学邀请赛(AIME,American Invitational Mathematics Examination)中,rStar-Math 平均能帮模型解决 53.3% 的问题(8/15)。在一众参加该比赛的高中学生中,rStar-Math 让模型的答题排名位于前 20%。
需要说明的是:AIME 试卷一共有 15 道题,每题 1 分满分为 15 分。对于 AIME 的真人参赛者来说,假如其分数在 13 分-15 分之间,那么该真人参赛者几乎能稳获参加美国数学奥林匹克大赛的资格,在申请名校时有着极强的竞争力。
值得注意的是,rStar-Math 未能帮助模型解答的几个问题都是几何题,解决这些问题需要视觉理解能力,rStar-Math 目前尚不支持这一能力。
rStar-Math:自进化的 System 2 类推理方法
之所以开展这一研究是因为,让大语言模型在一次推理中生成完整解决方案时,人们通常使用类似于 System 1 思维的方法,该方法能够快速生成结果但是错误率较高。
System 1 和 System 2 是以色列裔美国心理学家丹尼尔·卡尼曼(Daniel Kahneman)在其著作《快思慢想》中描述的两种思维模式,代表人脑处理信息和做出决策的不同方式。
而测试时间计算扩展(test-time compute scaling)方法,则展示了向 System 2 思维的范式转变,该思维范式通过更慢、更深入的思考过程来模拟人类推理。
在这种范式中,大语言模型被作为一个策略模型(policy model)来生成多个数学推理步骤,然后由另一个大语言模型作为奖励模型(reward model)进行评估,随后选取最有可能正确的步骤和解决方案。通过让大语言模型不断重复这个过程,让其得出最终的答案。
在测试时间计算范式(test-time compute paradigm)中,其中的两大关键分别是:第一,通过训练一个强大的策略模型来生成潜在的解决步骤;第二,使用一个可靠的奖励模型来准确地评估解决步骤。但是,这两者都依赖于高质量的训练数据。
而当前的高质量数学推理数据处于十分稀缺的状态,人工方式合成数学数据则依旧面临一定挑战。对于策略模型来说,它很难区分推理步骤的对与错,因此就更加难以消除低质量数据带来的负面影响。
这就导致在数学推理中即便大语言模型给出了正确答案,也并不能保证整个推理过程的正确性。而不正确的中间步骤,又会明显降低生成数据的质量。
对于过程奖励建模(PRM,process reward modeling)来说,它能针对中间步骤提供细粒度反馈。然而,过程奖励建模的训练数据更加稀缺,因此要想实现准确的逐步反馈,就需要大量的人工标记工作。
由于上述挑战的存在,基于蒸馏(distill-based)的数据合成法来训练策略模型的效果正在减弱,因为该方法往往无法让模型超越其教师模型。
与此同时,通过训练可靠的过程奖励模型(PRM,process reward model)进行数学推理,仍然是一个未竟的目标。
近年来,AI 创新在很大程度上是通过扩大模型参数推动的,这会耗费大量的计算资源和能源,故引发了人们对于规模化法则(Scaling Law)的质疑。
基于此,该团队打造了 rStar-Math 这一方法。一言以蔽之:rStar-Math 是一种自进化的 System 2 类推理方法,能够实现更好的数学推理。
数据集包含 74.7 万道数学题,让模型越训越强
与依赖高级大语言模型进行数据合成的解决方案不同,rStar-Math 使用较小的语言模型和蒙特卡洛树搜索来建立自我进化过程,从而能够迭代生成质量更高的训练数据。
概括来说,rStar-Math 通过蒙特卡洛树搜索进行“深度思考(deep thinking)”,进而能够实现数学推理。
蒙特卡洛树搜索,是一种通过“改进数学题的逐步解题方案”来模仿人类深度思考的方法,它能将复杂的数学问题分解为更简单的单步生成任务,从而降低小语言模型完成数学推理的难度。
总的来说,rStar-Math 蕴含以下三方面创新:
首先,rStar-Math 使用一种新的代码增强思维链(CoT,Chain of Thought)数据合成方法。
通过执行广泛的蒙特卡洛树搜索部署,能够使用自注释的蒙特卡洛树搜索 Q 值,来生成逐步验证的推理轨迹(注:Q 值是状态-动作值函数的一个估计,通常用于决策)。
当模型在解答一道数学题的时候,推理步骤会在蒙特卡洛树搜索中被分解为多个步骤。在每一个步骤里,作为策略模型的小语言模型都会针对候选节点进行采样,每个节点都会生成一步思维链(one-step CoT)和相应的 Python 代码。
为了确保生成质量,rStar-Math 只会保留那些成功执行 Python 代码的节点,从而减少中间步骤中的错误。此外,在大规模的蒙特卡洛树搜索部署中,它会根据每个中间步骤的贡献自动为其分配 Q 值。
对于通向正确答案贡献更多的步骤,将会被赋予更高的 Q 值,并会被打上质量更高的标签,这样一来就能确保小语言模型的推理轨迹均是由正确且高质量的中间步骤组成。
其次,rStar-Math 使用一种将小语言模型作为过程偏好模型(PPM,process preference model)的新方法,即通过过程偏好模型来实现过程奖励建模,从而能够可靠地预测每个数学推理步骤的奖励标签。
对于过程偏好模型来说,尽管它使用了大量的蒙特卡洛树搜索,但 Q 值仍然不够精确,因此无法针对每个推理步骤进行评分。
不过 Q 值能够区分正确步骤和错误步骤,从而能够实现可靠的标记,进而能够避免直接使用 Q 值作为奖励标签,借此避免传统方法在逐步奖励分配(stepwise reward assignment)中的噪声和不精确性。
再次,rStar-Math 使用一个四轮自我进化方案(four-round self-evolution),能够从零开始逐步构建前沿策略模型(frontier policy model)和过程偏好模型。
研究人员从公开来源整理了一个包含 74.7 万道数学题的数据集。在每一轮中,他们都使用最新的策略模型和过程偏好模型来执行蒙特卡洛树搜索,借此能够生成质量越来越高的训练数据,从而能在下一轮训练出更强的策略模型和过程偏好模型。
在过程偏好模型的帮助之下,使用蒙特卡洛树搜索能够生成更好的推理轨迹,并能提高训练数据的覆盖率,故能解答更难甚至竞赛级别的数学题。
可用于证明数学定理和代码推理,代码和数据将被公开在 GitHub
在应用前景上:
首先,rStar-Math 可被推广用于更具挑战性的数学任务比如定理证明。
研究人员表示,rStar-Math 也具备证明数学陈述(prove mathematical statements)的潜力。比如,它已能解答一个涉及费马小定理的奥赛数学题,并能通过深入的推理过程提供逐步正确的解答。
其次,rStar-Math 可被推广用于代码推理和常识推理。值得注意的是,如果要为一般推理任务合成经逐步验证的训练轨迹,则需要一种机制来提供反馈,以便判断在蒙特卡洛树搜索结束时,给定轨迹是否拿到了所需要的输出。
同时,关于 rStar-Math 的实验结果也表明,小语言模型可以为高难度数学推理,自动地生成高质量的训练数据。
根据 Hugging Face 上的一篇帖文,研究人员计划在 GitHub 上公开代码和数据。不过,该论文的作者之一 Li Lyna Zhang 在上述贴文的评论区写道,目前该团队“仍在进行开源版本的内部审查”。
参考资料:
https://arxiv.org/pdf/2501.04519
https://huggingface.co/papers/2501.04519
https://venturebeat.com/ai/microsofts-new-rstar-math-technique-upgrades-small-models-to-outperform-openais-o1-preview-at-math-problems/
运营/排版:何晨龙
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)