每经记者 张宝莲 每经编辑 陈俊杰
AI界掀起的“推理潮”正在成为大模型发展的又一竞争领域。
1月15日,科大讯飞(47.790, -0.38, -0.79%)(002230.SZ,股价46.49元,市值1074.73亿元)发布国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——讯飞星火深度推理模型X1(以下简称X1模型)。
深度推理模型,即拥有更长链条的逻辑思考和推理能力。和基础模型最直观的区别,便是在解决复杂问题上更具有优势,在回答问题之前模型会形成一段较长的思维链条,使得答题能力和准确度大幅提升。例如在解决高考数学题或者是奥赛题上,效率与准确率得到大幅提升。
《每日经济新闻》记者从科大讯飞方面获悉,X1模型具备3个典型特点。首先,可以化繁为简,将复杂问题拆解成多个步骤进行思考和推理。其次可以进行自我反思和验证,第三是由于人类标注数据难度极大,X1模型会根据答案的正确与否进行强化训练。
不同于此前生成式AI通过大规模预训练来进行下一个词的预测,并将重心放置于语义理解、文本生成上,推理模型的工作思路更接近于像人一样思考。
2024年9月,OpenAI率先推出了其最强的推理模型o1,并称o1在测试化学、物理和生物学专业知识的基准GPQA-diamond上,全面超过了人类博士专家,OpenAI曾宣称“通用人工智能之路,已经没有任何阻碍”。
OpenAI所推出的o1背后的训练方式与之前的模型有着根本不同。它使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练,这个数据集中包含“推理数据”和专门为其量身定制的科学文献。并采用“强化学习”的方式,通过奖励和惩罚来教导模型自行解决问题,再通过“思路链”(chain of thoughts)来处理用户查询的问题,给出思路链的总结摘要版,类似于人类一步步来处理问题的方式。
X1模型的训练亦是采用了一条全新的技术路线。据科大讯飞研究院的研究员介绍,X1模型训练和推理需要高强度的交互,并且涉及到跨任务的数据传输。这种新的技术路线带来了任务优化目标的转变,从以往追求高在线响应速度,转变为追求高的离线吞吐任务处理能力。
科大讯飞研究院的研究员在1月15日的直播中演示了X1模型如何解答高考题、AIME竞赛题以及高中奥赛题。X1模型不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。与通用大模型相比,其解题过程更接近人类的“慢思考”方式,并且用更少的算力,实现了更好的效果,这是推理模型的优势。
根据科大讯飞方面提供的数据,讯飞星火X1在近期参加的小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项“考试”中,与OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker(均为当前先进的推理模型)等测试成绩相比分数排名靠前。
从当前看,模型学会深度思考与逻辑推理,能够有效解决训练成本高攀、缺乏逻辑推理导致乱答题的现象,从一个使用工具变成一个自动化的“劳动力”。基于输入数据,通过逻辑推理和概率计算,得出更加准确和可靠的预测结果,能够让大模型在应用场景中获得更多的竞争优势,成为未来竞争的决胜关键。
在o1发布后,国产大模型厂商深度求索、阿里通义、月之暗面、智谱GLM、昆仑万维(35.280, -1.07, -2.94%)等也在去年11月到今年1月迅速跟进,先后推出了自己的深度推理模型。
DeepSeek在去年11月发布DeepSeek 推理模型预览版时称:“‘深度思考’ 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。”
智谱微信公众号在2024年最后一天发布其深度推理模型GLM-Zero预览版并称:“我们探索并验证了强化学习在增强模型深度推理能力方面不可取代的作用。随着强化学习训练量的增加,模型在深度推理等方面的效果稳步提升。”
科大讯飞方面称,在o1发布之后,科大讯飞在一个月之内迅速跑通了关键算法。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但最终攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题。
目前,推理模型在具有高度确定性答案的数学、医疗、代码等领域已经有了出色的表现,不断改进的工作在适应日益复杂的应用落地上已经有了初步验证。在应用上,科大讯飞方面称,X1已经在应用领域产生了真实价值。
教育业务上,科大讯飞称,随着相关技术融入,AI学习机学习推荐和诊断将变得更加精准,解题思路和知识链条将更加清晰。医疗领域,X1模型策略可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。
APP专享直播
热门推荐
国补后,苹果手机跌破3000元,iPhone16全球最低价? 收起国补后,苹果手机跌破3000元,iPhone16全球最低价?
- 2025年01月21日
- 10:27
- APP专享
- 记经典时刻
- 17,365
联合国秘书长副发言人:目前美国欠联合国常规预算摊款15亿美元
- 2025年01月22日
- 07:23
- APP专享
- 记经典时刻
- 7,552
特朗普扬言:考虑2月1日对中国商品加征10%关税
- 2025年01月22日
- 01:41
- APP专享
- 我是山河君
- 2,829
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 13:24:16
通用股份(sh601500)公告,公司控股股东红豆集团正在筹划公司控制权变更事项,红豆集团拟向广州工业投资控股集团有限公司(广州工控)或其指定主体转让其持有的本公司24.41%股份。如本次股份转让顺利推进并完成,公司控制权将发生变更。广州市人民政府持有广州工控 90%股权,为广州工控的控股股东。本次签署的仅为股份转让意向协议,尚处于筹划、意向协议阶段,最终能否签署正式股份转让协议及具体交易方案内容仍存在不确定性。 -
趋势领涨今天 10:46:24
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:45:02
盘后央行等六部门来利好了,印发《关于推动中长期资金入市工作的实施方案》,主要有五大举措,一是提升险资入市比例;二是社保基金、养老金;三是企业年金;四是权益类资金;五是优化资本市场投资生态。另外,明天还有新闻发布会。受此影响,富时A50开盘出现大幅拉升。看来为了节前的红包,上面也是费尽了心思,我们盘中分析说今天是诱空,你们说我们分析对了吗? -
趋势领涨今天 10:44:27
中证指数公司将于2025年1月23日正式发布中证1000相对价值指数、中证1000相对成长指数、中证2000相对价值指数和中证2000相对成长指数,为市场提供多样化的投资标的。中证1000相对价值指数和中证2000相对价值指数综合考察中证1000指数(sz399852)样本和中证2000指数样本的风格特征,选取价值风格较为突出的证券为样本,并采用经综合价值概率调整后的自由流通市值加权,以反映相应宽基指数样本中具有价值风格特征证券的整体表现。中证1000相对成长指数和中证2000相对成长指数综合考察中证1000指数(sz399852)样本和中证2000指数样本的风格特征,选取成长风格较为突出的证券为样本,并采用经综合成长概率调整后的自由流通市值加权,以反映相应宽基指数样本中具有成长风格特征证券的整体表现。 -
数字江恩今天 09:09:43
春节之前只有3个交易日了,有没有春节新一轮拉升,关键看图上的红色对峙线了,底线看为3180。假如小概率跌破支撑,那么不再有春节行情,否则春节之前都还能拉一波突破3268现在高点。无论怎么说,时间并不多了,春节行情也就是短平快的气氛式行情,最多小仓位参与一下就好。 -
数字江恩今天 09:09:38
5分钟图来看,本人一直说类似头肩底的震荡结构。其中左肩有两次反力度,分别是50点和70点量级。目前来看,其实右肩两次反力度也是50点和70点量级。所以今天盘面虽然弱,但依旧没有破坏3140以来的反弹结构。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:09:19
板块来看,今天相当贫瘠,光通讯、算力服务器等算力细分概念稍微好些,其余板块绿盘为主。其中,大消费板块跌幅居前。 -
数字江恩今天 09:09:13
A股两市今日成交4523 + 6835 = 11358 亿人民币,略微缩量,盘面缺乏动力。大盘早盘低开快速杀跌,然后全天在20点宽度的狭窄空间内反复震荡。个股方面接近8成个股收绿下跌,但大幅下跌个股家数并未异常增加。 -
数字江恩今天 09:09:06
春节行情的底线 -
徐善武今天 08:50:03
从过去十年看,持股过节的话,节后80%会有收益,而且持股时间长一些,收益情况会更好。【更多独家重磅股市观点请点击】