科大讯飞首推深度推理模型深度思考成为模型发展决胜关键？|推理_新浪财经

每经记者张宝莲每经编辑陈俊杰

AI界掀起的“推理潮”正在成为大模型发展的又一竞争领域。

1月15日，科大讯飞(47.790, -0.38, -0.79%)（002230.SZ，股价46.49元，市值1074.73亿元）发布国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——讯飞星火深度推理模型X1（以下简称X1模型）。

深度推理模型，即拥有更长链条的逻辑思考和推理能力。和基础模型最直观的区别，便是在解决复杂问题上更具有优势，在回答问题之前模型会形成一段较长的思维链条，使得答题能力和准确度大幅提升。例如在解决高考数学题或者是奥赛题上，效率与准确率得到大幅提升。

《每日经济新闻》记者从科大讯飞方面获悉，X1模型具备3个典型特点。首先，可以化繁为简，将复杂问题拆解成多个步骤进行思考和推理。其次可以进行自我反思和验证，第三是由于人类标注数据难度极大，X1模型会根据答案的正确与否进行强化训练。

不同于此前生成式AI通过大规模预训练来进行下一个词的预测，并将重心放置于语义理解、文本生成上，推理模型的工作思路更接近于像人一样思考。

2024年9月，OpenAI率先推出了其最强的推理模型o1，并称o1在测试化学、物理和生物学专业知识的基准GPQA-diamond上，全面超过了人类博士专家，OpenAI曾宣称“通用人工智能之路，已经没有任何阻碍”。

OpenAI所推出的o1背后的训练方式与之前的模型有着根本不同。它使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练，这个数据集中包含“推理数据”和专门为其量身定制的科学文献。并采用“强化学习”的方式，通过奖励和惩罚来教导模型自行解决问题，再通过“思路链”（chain of thoughts）来处理用户查询的问题，给出思路链的总结摘要版，类似于人类一步步来处理问题的方式。

X1模型的训练亦是采用了一条全新的技术路线。据科大讯飞研究院的研究员介绍，X1模型训练和推理需要高强度的交互，并且涉及到跨任务的数据传输。这种新的技术路线带来了任务优化目标的转变，从以往追求高在线响应速度，转变为追求高的离线吞吐任务处理能力。

科大讯飞研究院的研究员在1月15日的直播中演示了X1模型如何解答高考题、AIME竞赛题以及高中奥赛题。X1模型不仅准确给出了这些题目的答案，还对解题思路和步骤进行了详细拆解。与通用大模型相比，其解题过程更接近人类的“慢思考”方式，并且用更少的算力，实现了更好的效果，这是推理模型的优势。

根据科大讯飞方面提供的数据，讯飞星火X1在近期参加的小初高（含竞赛）、大学（含竞赛）、AIME、MATH 500等多项“考试”中，与OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker（均为当前先进的推理模型）等测试成绩相比分数排名靠前。

从当前看，模型学会深度思考与逻辑推理，能够有效解决训练成本高攀、缺乏逻辑推理导致乱答题的现象，从一个使用工具变成一个自动化的“劳动力”。基于输入数据，通过逻辑推理和概率计算，得出更加准确和可靠的预测结果，能够让大模型在应用场景中获得更多的竞争优势，成为未来竞争的决胜关键。

在o1发布后，国产大模型厂商深度求索、阿里通义、月之暗面、智谱GLM、昆仑万维(35.280, -1.07, -2.94%)等也在去年11月到今年1月迅速跟进，先后推出了自己的深度推理模型。

DeepSeek在去年11月发布DeepSeek 推理模型预览版时称：“‘深度思考’ 模式专门针对数学、代码等各类复杂逻辑推理问题而设计，相比于普通的简单问题，能够提供更加全面、清晰、思路严谨的优质解答，充分展现出较长思维链的更多优势。”

智谱微信公众号在2024年最后一天发布其深度推理模型GLM-Zero预览版并称：“我们探索并验证了强化学习在增强模型深度推理能力方面不可取代的作用。随着强化学习训练量的增加，模型在深度推理等方面的效果稳步提升。”

科大讯飞方面称，在o1发布之后，科大讯飞在一个月之内迅速跑通了关键算法。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战，但最终攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题。

目前，推理模型在具有高度确定性答案的数学、医疗、代码等领域已经有了出色的表现，不断改进的工作在适应日益复杂的应用落地上已经有了初步验证。在应用上，科大讯飞方面称，X1已经在应用领域产生了真实价值。

教育业务上，科大讯飞称，随着相关技术融入，AI学习机学习推荐和诊断将变得更加精准，解题思路和知识链条将更加清晰。医疗领域，X1模型策略可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。