科大讯飞首推深度推理模型 深度思考成为模型发展决胜关键?

科大讯飞首推深度推理模型 深度思考成为模型发展决胜关键?
2025年01月15日 17:15 每日经济新闻

每经记者 张宝莲    每经编辑 陈俊杰    

AI界掀起的“推理潮”正在成为大模型发展的又一竞争领域。

1月15日,科大讯飞(47.790, -0.38, -0.79%)(002230.SZ,股价46.49元,市值1074.73亿元)发布国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——讯飞星火深度推理模型X1(以下简称X1模型)。

深度推理模型,即拥有更长链条的逻辑思考和推理能力。和基础模型最直观的区别,便是在解决复杂问题上更具有优势,在回答问题之前模型会形成一段较长的思维链条,使得答题能力和准确度大幅提升。例如在解决高考数学题或者是奥赛题上,效率与准确率得到大幅提升。

《每日经济新闻》记者从科大讯飞方面获悉,X1模型具备3个典型特点。首先,可以化繁为简,将复杂问题拆解成多个步骤进行思考和推理。其次可以进行自我反思和验证,第三是由于人类标注数据难度极大,X1模型会根据答案的正确与否进行强化训练。

不同于此前生成式AI通过大规模预训练来进行下一个词的预测,并将重心放置于语义理解、文本生成上,推理模型的工作思路更接近于像人一样思考。

2024年9月,OpenAI率先推出了其最强的推理模型o1,并称o1在测试化学、物理和生物学专业知识的基准GPQA-diamond上,全面超过了人类博士专家,OpenAI曾宣称“通用人工智能之路,已经没有任何阻碍”。

OpenAI所推出的o1背后的训练方式与之前的模型有着根本不同。它使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练,这个数据集中包含“推理数据”和专门为其量身定制的科学文献。并采用“强化学习”的方式,通过奖励和惩罚来教导模型自行解决问题,再通过“思路链”(chain of thoughts)来处理用户查询的问题,给出思路链的总结摘要版,类似于人类一步步来处理问题的方式。

X1模型的训练亦是采用了一条全新的技术路线。据科大讯飞研究院的研究员介绍,X1模型训练和推理需要高强度的交互,并且涉及到跨任务的数据传输。这种新的技术路线带来了任务优化目标的转变,从以往追求高在线响应速度,转变为追求高的离线吞吐任务处理能力。

科大讯飞研究院的研究员在1月15日的直播中演示了X1模型如何解答高考题、AIME竞赛题以及高中奥赛题。X1模型不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。与通用大模型相比,其解题过程更接近人类的“慢思考”方式,并且用更少的算力,实现了更好的效果,这是推理模型的优势。

根据科大讯飞方面提供的数据,讯飞星火X1在近期参加的小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项“考试”中,与OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker(均为当前先进的推理模型)等测试成绩相比分数排名靠前。

从当前看,模型学会深度思考与逻辑推理,能够有效解决训练成本高攀、缺乏逻辑推理导致乱答题的现象,从一个使用工具变成一个自动化的“劳动力”。基于输入数据,通过逻辑推理和概率计算,得出更加准确和可靠的预测结果,能够让大模型在应用场景中获得更多的竞争优势,成为未来竞争的决胜关键。

在o1发布后,国产大模型厂商深度求索、阿里通义、月之暗面、智谱GLM、昆仑万维(35.280, -1.07, -2.94%)等也在去年11月到今年1月迅速跟进,先后推出了自己的深度推理模型。

DeepSeek在去年11月发布DeepSeek 推理模型预览版时称:“‘深度思考’ 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。”

智谱微信公众号在2024年最后一天发布其深度推理模型GLM-Zero预览版并称:“我们探索并验证了强化学习在增强模型深度推理能力方面不可取代的作用。随着强化学习训练量的增加,模型在深度推理等方面的效果稳步提升。”

科大讯飞方面称,在o1发布之后,科大讯飞在一个月之内迅速跑通了关键算法。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但最终攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题。

目前,推理模型在具有高度确定性答案的数学、医疗、代码等领域已经有了出色的表现,不断改进的工作在适应日益复杂的应用落地上已经有了初步验证。在应用上,科大讯飞方面称,X1已经在应用领域产生了真实价值。

教育业务上,科大讯飞称,随着相关技术融入,AI学习机学习推荐和诊断将变得更加精准,解题思路和知识链条将更加清晰。医疗领域,X1模型策略可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。

海量资讯、精准解读,尽在新浪财经APP
推理 科大讯飞
0条评论|0人参与网友评论
最热评论

APP专享直播

开播时间 | 1-22 19:30
国投瑞银:共读经典——更富有、更睿智、更快乐
开播时间 | 1-22 17:00
永赢基金:2025年投资,如何求稳又求赚?
开播时间 | 1-22 16:00
天弘基金:天弘固收+ 市场的调整、变化与展望
开播时间 | 1-22 15:30
民生加银基金 董士萱、娜娜:2025年汽车前瞻 政策延续 出口景气 继续看好
开播时间 | 1-22 15:30
海通证券肖鑫雨、程丽辉:揭秘债券ETF:投资价值全解析
开播时间 | 1-22 15:30
博时基金:红利指数家族:如何掘金高股息投资机会?
开播时间 | 1-22 15:30
银华基金:心动的ETF 第14期 小年特辑 高股息新春添彩头
开播时间 | 1-22 15:30
国泰基金:为何现金流长期跑赢红利?
开播时间 | 1-22 15:20
「春节策划」景顺长城基金张晓南:展望2025资产配置
开播时间 | 1-22 15:00
万家基金:特朗普开启新任期,2025投资如何打理?
开播时间 | 1-22 19:30
国投瑞银:共读经典——更富有、更睿智、更快乐
开播时间 | 1-22 17:00
永赢基金:2025年投资,如何求稳又求赚?
开播时间 | 1-22 16:00
天弘基金:天弘固收+ 市场的调整、变化与展望
开播时间 | 1-22 15:30
民生加银基金 董士萱、娜娜:2025年汽车前瞻 政策延续 出口景气 继续看好
开播时间 | 1-22 15:30
海通证券肖鑫雨、程丽辉:揭秘债券ETF:投资价值全解析
开播时间 | 1-22 15:30
博时基金:红利指数家族:如何掘金高股息投资机会?
开播时间 | 1-22 15:30
银华基金:心动的ETF 第14期 小年特辑 高股息新春添彩头
开播时间 | 1-22 15:30
国泰基金:为何现金流长期跑赢红利?
开播时间 | 1-22 15:20
「春节策划」景顺长城基金张晓南:展望2025资产配置
开播时间 | 1-22 15:00
万家基金:特朗普开启新任期,2025投资如何打理?
上一页下一页
1/10

热门推荐

国补后,苹果手机跌破3000元,iPhone16全球最低价? 收起
国补后,苹果手机跌破3000元,iPhone16全球最低价?

国补后,苹果手机跌破3000元,iPhone16全球最低价?

  • 2025年01月21日
  • 10:27
  • APP专享
  • 记经典时刻
  • 17,365
APP专享
联合国秘书长副发言人:目前美国欠联合国常规预算摊款15亿美元

联合国秘书长副发言人:目前美国欠联合国常规预算摊款15亿美元

  • 2025年01月22日
  • 07:23
  • APP专享
  • 记经典时刻
  • 7,552
APP专享
特朗普扬言:考虑2月1日对中国商品加征10%关税

特朗普扬言:考虑2月1日对中国商品加征10%关税

  • 2025年01月22日
  • 01:41
  • APP专享
  • 我是山河君
  • 2,829
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.15 -0.95%
京东方A 4.49 -0.22%
TCL科技 5.13 -1.16%
中远海控 14.05 -0.43%
格力电器 44.06 -1.56%
广告

7X24小时

  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 兴福电子 688545 11.68
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部