近日,昆仑万维(39.460, 1.93, 5.14%)携手新加坡南洋理工大学成功开发了一个名为Q*的算法,能够显著提升现有大模型的推理能力。在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。
Q*能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,这一算法不仅大幅提升了小模型的性能,还显著降低了计算资源的需求,为人工智能的广泛应用带来了全新可能,开创了高效智能的新纪元。
项目论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公开发布。

打破OpenAI封锁 提升现有模型能力
自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。



不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。
昆仑万维自Q*项目曝光以来,一直密切关注Q*的动向,且在第一时间就成立研究小组尝试开发自己的Q*算法,希望打破OpenAI的封锁,提升现有开源模型的推理能力。经过数月的尝试,团队提出了一种新颖的Q*框架,并且帮助现有开源模型在GSM8K、MATH和MBPP数据集上,分别超越了ChatGPT和Gemini Ultra。
复杂推理任务全盘规划
在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建Process Reward Model (PRM) 进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。


为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型。训练过程中的真实标签可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。
实验结果表明,昆仑万维本次所提出的Q*框架,可以显著地提升LLM的推理能力,在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra; 在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,昆仑万维会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。


APP专享直播
热门推荐
建议孩子违法家长必须赔偿被害人 收起建议孩子违法家长必须赔偿被害人
- 2025年03月06日
- 00:55
- APP专享
- 扒圈小记
19,034
世纪交易!李嘉诚228亿美元卖掉43个港口
- 2025年03月06日
- 04:51
- APP专享
- 扒圈小记
5,809
代表委员建议:放宽公务员报考年龄限制 带头遏制35岁就业歧视
- 2025年03月06日
- 00:08
- APP专享
- 北京时间
3,451

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
雪球年大今天 13:27:53
11 -
雪球年大今天 13:15:54
测试 -
趋势领涨今天 13:03:18
忽如一夜春风来,今天放量普涨,量能逼近两万亿, 机构资金罕见的净流入了393亿,真不容易,关键还得是散户跑步进场,市场瞬间被推高。普涨但算不上大涨。 沪指距离创年内新高一步之遥,创了新高又会逼近3400点,近一段时间里3400点竟然成了一道坎,但时间稍拉长一些,3400点啥也不是, 但,短期3400点附近还是需要震荡的! -
趋势领涨今天 11:12:28
美股三大股指期货均跌超1%,纳指期货现跌1.4%;科技股盘前普跌,迈威尔科技绩后跌16%,博通跌近4%,台积电、英伟达、特斯拉跌超2%。 -
数字江恩今天 09:49:09
无论如何,3140的反弹大波段没有结束。这里短线走得变幻莫测,但也还未脱离abc后的震荡结构。震荡结构只要还未确立新的12345开始,那么不追高、不杀跌,维持中性仓位在非高位热点,就是合理的。 -
数字江恩今天 09:49:05
大盘上周开始,就在宽幅震荡回踩和之字形震荡之间左右摇摆。明日首先关注3356/3350支撑,这里只要不跌破是可以直接攻击3400整数位以上一些,走出之字形震荡的。相反,若跌破3350则还会回踩一轮看图上白色方框支撑。 -
数字江恩今天 09:48:58
看5分钟图,今日大盘拉升,回到了图上的红色轮谷线以上,这算是短线意外事件。但已经拉动了力度,短线结构就有所改变。图上的白色方框为3388下跌白色第二轮空间范围,这个白色方框首先看为大盘支撑,即再次回踩也先看支撑,而非直接新低3297了。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:48:45
板块上,今日证券保险,地产,酿酒和有色拉抬指数。ai应用、国产算力,云和数据中心涨幅靠前。 -
数字江恩今天 09:48:40
A股两市今日成交7364 + 11700 = 19064 亿人民币,显著放量。大盘跳空高开后,全天向上运行,收涨39个点,吃掉了上周五的大阴线。个股方面,80%的个股收红上涨。 -
数字江恩今天 09:48:36
短线决定震荡形态