
机器之心报道
编辑:张倩、泽南
给到额外的计算资源和「思考」时间,为什么有的模型能好好利用,把性能提升一大截,而有的模型就不行?
当遇到困难问题时,人类会花时间深入思考以找到解决方案。在 AI 领域,最近的一些大语言模型在通过强化学习进行自我改进训练时,也已经开始表现出类似的推理行为。
但是,在同样的强化学习训练下,不同模型自我改进的能力却存在很大差异。比如在一个游戏中,Qwen-2.5-3B 的自我改进能力远远超过 Llama-3.2-3B(两个模型初始都很差,但强化学习训练结束后,Qwen 达到约 60% 的准确率,Llama 只有 30%)。这是什么原因?
在最近斯坦福大学提交的一项工作中,大模型自我改进能力背后的机制被挖掘了出来。该研究重点关注的是基础语言模型中关键的认知行为的存在。

这项研究一发布就引来众多讨论,比如 Synth Labs CEO 认为这个发现非常激动人心,因为其可被整合进任何模型中!

作者将研究重点放在两个基础模型 ——Qwen-2.5-3B 和 Llama-3.2-3B 上,当使用强化学习对 Countdown 游戏进行训练时,它们之间显示出明显的差异 ——Qwen 解决问题的能力大幅提高,Llama2 在相同的训练过程中却提升有限。语言模型的哪些属性带来了这种不同?
为了系统地研究这个问题,作者开发了一个框架来分析对解决问题有用的认知行为,其中描述了四种关键的认知行为:验证(系统错误检查)、回溯(放弃失败的方法)、子目标设定(将问题分解为可管理的步骤)和逆向思考(从期望结果推理到初始输入)。这些行为反映了专家级问题解决者处理困难任务的方式 —— 数学家会验证证明的每个步骤、遇到矛盾时回溯以及将复杂定理分解为更简单的引理。

初步分析表明,Qwen 自然地表现出了这些推理行为,特别是验证和回溯,而 Llama 则缺乏这些行为。从这些观察中作者得出了核心假设:初始策略中的某些推理行为对于通过扩展推理序列有效利用增加的测试时间计算(test-time compute)是必不可少的。也就是说,AI 模型要想在有更多时间思考时真正变得更聪明,必须先具备一些基本的思考能力(比如检查错误、验证结果的习惯)。如果模型一开始就不会这些基本思考方法,即使给它再多的思考时间和计算资源,它也无法有效利用这些资源来提高自己的表现。这就像人类学习一样 —— 如果一个学生不具备基本的自我检查和纠错能力,单纯给他更多的考试时间也不会让他的成绩有显著提高。
研究人员又通过对初始模型进行干预来检验这一假设。
首先,他们发现,通过用包含这些行为(尤其是回溯)的人工合成推理轨迹对 Llama 进行引导,可以使其在强化学习过程中表现大幅改善,甚至能达到与 Qwen 相当的性能提升。其次,即使这些引导用的推理轨迹包含错误答案,只要它们展现出正确的推理模式,Llama 依然能取得进步。这表明,推理行为的存在,而不是正确答案本身,才是实现成功自我改进的关键因素。最后,他们从 OpenWebMath 数据集中筛选出强调这些推理行为的内容,用于对 Llama 进行预训练。结果表明,这种有针对性的预训练数据调整能够成功诱导出高效利用计算资源所需的推理行为模式 ——Llama 的性能提升轨迹与 Qwen 一致。
这项研究揭示了模型的初始推理行为与其自我改进能力之间存在紧密联系。这种联系有助于解释为什么有些语言模型能够找到有效利用额外计算资源的方法,而另一些模型则停滞不前。理解这些动态变化可能是开发能够显著提升问题解决能力的 AI 系统的关键。
如何让 AI 学会自我改进?
参与对比的模型:Qwen-2.5-3B 和 Llama-3.2-3B
研究开始于一个令人惊讶的观察结果:规模相当但来自不同家族的语言模型通过强化学习表现出差异巨大的提升能力。
Countdown 游戏作为主要测试平台 —— 这是一个数学难题,玩家必须使用四种基本算术运算(+、−、×、÷)组合一组输入数字以达到目标数字。例如,给定数字 25、30、3、4 和目标 32,玩家需要通过一系列操作将这些数字组合起来,得到精确的 32:(30 − 25 + 3) × 4。
选择 Countdown 进行分析是因为它需要数学推理、规划和搜索策略。与更复杂的领域不同,Countdown 提供了一个受限的搜索空间,使得可行的分析成为可能,同时仍然需要复杂的推理。此外,与其他数学任务相比,Countdown 游戏中的成功更依赖于问题解决能力而非数学知识。
研究者使用两个基础模型来对比不同模型家族之间的学习差异:Qwen-2.5-3B 和 Llama-3.2-3B。强化学习实验基于 VERL 库,利用 TinyZero 实现。他们使用 PPO 方法训练模型 250 步,每个提示采样 4 个轨迹。选择 PPO 而非 GRPO 和 REINFORCE 等替代方案,是因为它在各种超参数设置下表现出更优的稳定性,尽管各算法的性能非常相似。
结果揭示了截然不同的学习轨迹。尽管这两种模型在任务开始时表现相似,得分都很低,但 Qwen 在第 30 步左右表现出质的飞跃,特点是响应明显变长且准确性提高,如下图所示。到训练结束时,Qwen 达到了约 60% 的准确率,大大超过 Llama 的 30%。

在训练后期,可以观察到 Qwen 行为的一个有趣变化:模型从语言中的显式验证语句「8*35 是 280,太高了」过渡到隐式解决方案检查,模型依次尝试不同的解,直到找到正确的答案,而不使用文字来评估自己的工作。
这种对比引出了一个基本问题:哪些潜在的能力能够成功地实现基于推理的改进?要回答这个问题,需要一个系统的框架来分析认知行为。
分析认知行为的框架
为了理解这些不同的学习轨迹,研究者开发了一个框架来识别和分析模型输出中的关键行为。他们重点关注四种基本行为:
1、回溯或在检测到错误时显式修改方法(例如,「这种方法行不通,因为...」);
2、验证或系统地检查中间结果(例如,「让我们通过... 来验证这个结果」);
3、子目标设定,即将复杂问题分解为可管理的步骤(例如,「要解决这个问题,我们首先需要...」);
4、逆向思考,即在目标导向的推理问题中,从期望的结果出发,逐步向后推导,找到解决问题的路径。(例如,「要达到 75 的目标,我们需要一个能被... 整除的数字」)。
选择这些行为是因为它们代表了与语言模型中常见的线性、单调推理模式不同的问题解决策略。这些行为使更加动态、类似搜索的推理轨迹成为可能,解决方案可以非线性地演变。虽然这组行为并非详尽无遗,但选择这些行为是因为它们容易识别,并且自然地与 Countdown 游戏和更广泛的数学推理任务(如证明构建)中的人类问题解决策略相一致。
每种行为都可以通过其在推理 token 中的模式来识别。回溯被视为显式否定并替换先前步骤的 token 序列,验证产生将结果与解决方案标准进行比较的 token,逆向思考从目标出发,逐步构建通往初始状态的解决方案路径的 token,而子目标设定则显式提出在通往最终目标的路径上要瞄准的中间步骤。研究者开发了一个使用 GPT-4o-mini 的分类 pipeline,可靠地识别模型输出中的这些模式。
初始行为在自我提升中的作用
将这个框架应用于初始实验揭示了一个关键洞察:Qwen 的显著性能改进与认知行为的出现相吻合,特别是验证和回溯(图 1(中))。相比之下,Llama 在整个训练过程中几乎没有表现出这些行为的证据。

为了更好地理解这种差异,研究者分析了三个模型的基线推理模式:Qwen-2.5-3B、Llama-3.2-3B 和 Llama-3.1-70B。分析揭示,与两种 Llama 变体相比,Qwen-2.5-3B 产生各种行为的比例都要更高(图 4)。尽管较大的 Llama-3.1-70B 在这些行为的激活频率上普遍高于 Llama-3.2-3B,但这种提升并不均衡 —— 特别是回溯行为,即便在更大的模型中,其表现仍然有限。

这些观察结果表明两个洞察:
1、初始策略中的某些认知行为可能是模型通过扩展推理序列有效利用增加的测试时间计算所必需的;
2、增加模型规模可以改善这些行为的上下文激活。这种模式尤为重要,因为强化学习只能放大成功轨迹中出现的行为 —— 使这些初始行为能力成为有效学习的先决条件。
干预初始行为
在确立了基础模型中认知行为的重要性之后,接下来研究是否可以通过有针对性的干预人为诱导这些行为。
研究者提出的假设是,通过在 RL 训练前创建选择性表现特定认知行为的基础模型变体,可以更好地理解哪些行为模式对于实现有效学习至关重要。
他们首先使用 Countdown 问题策划了七个不同的启动数据集。其中五个数据集强调不同的行为组合:所有策略组合、仅回溯、回溯与验证、回溯与子目标设定以及回溯与逆向思考。他们使用 Claude-3.5-Sonnet 生成这些数据集,利用其能够产生具有精确指定行为特征的推理轨迹的能力。
为了验证改进源于特定的认知行为而非简单的计算时间增加,研究引入了两个控制条件:一个空的思维链和一个与所有策略数据集的数据点长度匹配的填充占位符 token 的链。这些控制数据集帮助作者验证观察到的任何改进是否源于特定的认知行为,而非简单的计算时间增加。作者还创建了全策略数据集的变体,其中仅包含不正确的解决方案,同时保持所需的推理模式。此变体使作者能够将认知行为的重要性与解决方案的准确性区分开来。
当使用包含回溯行为的数据集进行初始化时,Llama 和 Qwen 都通过 RL 训练表现出明显的改进(图 2)。


例如,在全策略条件下(图 1(左下)),模型保留并加强回溯和验证,同时减少逆向思考和子目标设定。然而,当仅与回溯配对时,被抑制的行为(逆向思考和子目标设定)会在整个训练过程中持续存在。

当用空的思维链控制进行启动时,在两种情况下,模型的性能都与基本 Llama 模型相当(≈30-35%;见图 5),这表明仅仅分配额外的 token 而不包含认知行为无法有效利用测试时间计算。此外,使用空的思维链进行训练会产生不利影响,Qwen 模型会停止探索行为。这表明这些认知行为对于模型通过更长的推理序列有效利用扩展计算是特别必要的。

令人惊讶的是,用不正确的解决方案启动但具有正确行为的模型,与在具有正确解决方案的数据集上训练的模型具有相同的性能(图 6)。这表明认知行为存在(而不是获得正确的解决方案)是通过强化学习成功实现自我改进的关键因素。因此,来自较弱模型的推理模式可以有效地引导学习过程以构建更强大的模型,这表明认知行为的存在比结果的正确性更重要。

在预训练数据中选择性地放大行为
上述结果表明,某些认知行为对于自我完善是必要的。然而,作者在初始模型中诱导行为的启动方法是领域特定的,依赖于 Countdown 游戏。这可能会对最终推理的泛化产生不利影响。我们能否通过修改模型的预训练分布来增加有益推理行为的频率,从而实现自我完善?
为了探究预训练数据中的行为频率,作者首先分析了预训练数据中认知行为的自然频率,重点关注 OpenWebMath 和 FineMath,它们是专门为数学推理而构建的。使用 Qwen-2.5-32B 作为分类器,研究分析了 20 万份随机抽样的文档,以查找目标行为的存在。即使在这个以数学为重点的语料库中,回溯和验证等认知行为也很少出现,这表明标准预训练对这些关键模式的接触有限(见图 7)。

为了测试人为增加认知行为的接触是否会增强自我提升的潜力,作者从 OpenWebMath 开发了一个有针对性的持续预训练数据集。首先使用 Qwen-2.5-32B 作为分类器,分析来自预训练语料库的数学文档,以了解目标推理行为的存在。以此为基础人们创建了两个对比集:一个具有认知行为,另一个极少认知内容的控制集。
然后,他们使用 Qwen-2.5-32B 将集合中的每个文档重写为结构化的问答格式,保留源文档中认知行为的自然存在或缺失。最终的预训练数据集每个都包含总共 830 万 token。这种方法使作者能够隔离推理行为的影响,同时控制预训练期间数学内容的格式和数量。
在这些数据集上对 Llama-3.2-3B 进行预训练并应用强化学习后,作者能观察到:1)行为丰富模型实现了与 Qwen 相当的性能,而控制模型的改进有限(图 8a);2)对训练模型的行为分析表明,行为丰富变体在整个训练过程中保持推理行为的高激活度,而控制模型表现出与基本 Llama 模型类似的行为(图 8c)。

这些结果表明,有针对性地修改预训练数据,可以通过强化学习成功生成有效自我改进所必需的认知行为。
更多信息请参见原论文。


APP专享直播
热门推荐
余承东回应华为Pura X价格争议:用了新技术,成本非常高 收起余承东回应华为Pura X价格争议:用了新技术,成本非常高
- 2025年03月21日
- 10:36
- APP专享
- 扒圈小记
44,653
取代“中国制造”?印度大计划被爆“夭折”
- 2025年03月22日
- 01:50
- APP专享
- 扒圈小记
33,367
男子相亲谎称不育专骗单亲妈妈,12名女子被骗超295万
- 2025年03月21日
- 05:54
- APP专享
- 北京时间
6,409

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 07:56:22
周末有条消息:封盘解除!绩优量化近期将重启募集。大家提到量化就是谈虎色变,对于量化交易深恶痛绝,把市场涨不上去的原因归罪于量化,都在呼喊关闭量化,但正定私募拟于近日重启封盘产品的对外募集,并将完成量化对冲策略线的重要升级。这预示着量化不但不会关闭,反而还要加速发行,你服不服? 具体来说,正定私募重启募集时间拟定为2025年4月1日,重启募集后,公司旗下300指增、A500指增、500指增、1000指增及量化对冲策略线均对外开放,且旗下所有产品直销起投门槛定为500万元。这意思是大盘股也要开始量化了! -
趋势领涨今天 07:37:01
高盛:3月至今全球对冲基金卖出中国股票 但整体净配置仍然增长根据高盛Prime Services数据,对冲基金在2025年3月逆转了年初至今在中国市场的17%的购买行为。这意味着这些基金在过去一段时间内对中国市场的投资策略发生了明显转变,从积极买入转向了部分卖出。从净配置来看,中国股票在月度(MTD)期间仅出现了轻微的净卖出,但净配置比例却增加了1%,达到9.1%,处于五年来的56%分位。这表明尽管对冲基金有所卖出,但整体市场对中国资产的配置仍在增加。这里我们要说的是,对冲基金本来就是分流风险的,3月份美股大跌,买入中国资产对冲;现在美股反弹,卖出中国资金补仓美股,这些都是正常的,但打铁还需自身硬,不要老想着外资来给你撑腰,重点是内资不能天天砸盘!外资能有多少钱?内资才是主心骨! -
趋势领涨今天 07:06:26
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 03:20:22
高盛:3月至今全球对冲基金卖出中国股票 但整体净配置仍然增长根据高盛Prime Services数据,对冲基金在2025年3月逆转了年初至今在中国市场的17%的购买行为。这意味着这些基金在过去一段时间内对中国市场的投资策略发生了明显转变,从积极买入转向了部分卖出。从净配置来看,中国股票在月度(MTD)期间仅出现了轻微的净卖出,但净配置比例却增加了1%,达到9.1%,处于五年来的56%分位。这表明尽管对冲基金有所卖出,但整体市场对中国资产的配置仍在增加。这里我们要说的是,对冲基金本来就是分流风险的,3月份美股大跌,买入中国资产对冲;现在美股反弹,卖出中国资金补仓美股,这些都是正常的,但打铁还需自身硬,不要老想着外资来给你撑腰,重点是内资不能天天砸盘!外资能有多少钱?内资才是主心骨! -
趋势领涨今天 01:43:53
在公布年报季报的时候,玉龙股份(sh601028)主动退市,这是怕查吗?不过,值得点赞的是玉龙股份(sh601028)给出了现金选择权,行权价格为13.20元/股,高于停牌前收盘价13.04元/股。这就是一家良心公司!比那个东方要强百倍!希望有问题的公司都来向他学习,毕竟散户才是弱势群体。所以,我们建议证监会出一条规则,只要做了假账,有问题的公司,主动退市,行使现金选择权,以后都不再追究责任,否则,一旦查出问题,就让他倾家荡产,牢底坐穿,你们说呢?昨天港股大跌,晚间中概股出现下跌,这是非常正常的,但富时A50是上涨的,美股也出现了反弹,下周大盘应该有一个回抽,但月底还是要注意风险,特别是高位题材股的风险。 -
趋势领涨今天 01:43:46
关键时候,个人消费贷落地,自主支付的金额上限可阶段性从30万元提高至50万元,最长7年。消费贷主要利好银行、大消费板块,间接利好股市,因为很多人可以通过消费贷的名义贷款进入到股市!以前行情走好时,有过严查消费贷进入股市的情况,现在要维护市场,显然还远远没有到严查的时候。三、个股利空继续堆积1、联创股份(sz300343):自3月25日被实施其他风险警示 股票简称变更为“ST联创”;2、凯大催化(bj830974):因涉嫌信披违法违规被证监会立案;3、中电港(sz001287):国家集成电路基金、国风投基金拟合计减持公司不超6%股份;4、证监会对*ST普利(sz300630)重大财务造假案依法从严行政处罚 深交所将对其启动股票终止上市程序;5、立航科技(sh603261):公司实控人、董事长刘随阳被立案调查和实施留置等。上周钦点的东方集团退市,股票连续跌停,到现在还没有打开跌停;本周又钦点了*ST普利(sz300630)退市,下周应该也是连续跌停了,对有问题还没有处罚,特别是ST个股,大家一定要注意风险,一旦踩上,血本无归!四、玉龙股份(sh601028)成今年首家拟主动退市的A股上市公司玉龙股份(sh601028)公告,公司经营状况不佳,现金流持续恶化,公司经营面临重大不确定性,公司拟以股东大会决议方式主动撤回A股股票在上交所的上市交易,并申请股票进入全国中小企业股份转让系统退市板块继续交易。 -
趋势领涨今天 01:43:42
昨天应该是年后最悲惨的一天,大盘出现了放量大跌,两市不足千只个股红盘,近50只个股跌停,内资大幅流出超过800亿元,这是赶着去干嘛呢?以前美股打个喷嚏,A股就感冒,现在怎么变成了港股咳嗽一声,A股就吓尿了呢?如果硬是要给A股下跌找个理由,那就是期指交割,每月收割两次,比美股每三个月收割一次多了很多,大家都提了很多次,难道关键人物会不知道吗?如果量化制造了大国神器,那这个期指交割又是中饱了谁的私囊呢?一、央妈释放利好:1、根据国内外经济金融形势和金融市场运行情况 择机降准降息;2、研究创设新的结构性货币政策工具,重点支持科技创新领域的投融资、促进消费和稳定外贸;3、用好证券、基金、保险公司互换便利和股票回购增持再贷款 维护资本市场稳定。现在基本上是每个周末都要出现这三条,大家的耳朵都起茧了!择机降息降准,这个择机是什么时候?再不降息降准,大家都扛不住了!所以,大家看看就行了,话说三遍淡如水!二、消费贷新政落地:个人消费贷款自主支付的金额上限可阶段性从30万元提高至50万元对于信用良好、有大额消费需求的客户,个人消费贷款自主支付的金额上限可阶段性从30万元提高至50万元,个人互联网消费贷款金额上限可阶段性从20万元提高至30万元。在期限方面,针对有长期消费需求的客户,商业银行用于个人消费的贷款期限可阶段性由不超过5年延长至不超过7年。 -
趋势领涨今天 01:43:38
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-03-21 10:30:06
亚星锚链(sh601890)(601890.SH)发布股票交易异常波动公告,经自查,公司目前生产经营活动正常,市场环境、行业政策未发生重大调整,生产成本和销售等情况未出现大幅波动,内部生产经营秩序正常。除已披露信息外,公司、公司控股股东及实际控制人不存在其他应披露而未披露的重大事项。 -
数字江恩2025-03-21 09:17:32
下周一,只要没有加速下跌,那么3350+-5个点区间,便是2-a的结束。其后,2-b反弹和2-c再次下跌便是下周的走势了,其中,2-c的时间会跨越下周到下下周,这就等下周再说了。总之下周都处于第二浪回踩之中,之上期间有一个短线2-b反弹。