来源:新智元

【新智元导读】奥特曼罕见地承认了自己犯下的‘历史错误’,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!
DeepSeek再度创造历史。
居然能逼得OpenAI CEO奥特曼承认:‘我们在开源/开放权重AI模型方面,一直站在了历史的错误一边。’

LeCun也发文指出,硅谷圈子的常见病,就是一种错位的优越感。
高级阶段的症状,是认为小圈子就能垄断好的想法。而晚期症状就是,假设来自他人的创新都是靠作弊。

DeepSeek的最大意义在哪里?
ARC Prize联合创始人Mike Knoop发出长文中总结道——R1-Zero打破了最终的人类输入瓶颈——专家CoT标注!其中一个例子,就是监督微调(SFT)。
从R1-Zero到AGI,一切都与效率有关。

另一个值得注意的观点就是:相比R1,R1-Zero具有更重要的研究价值。
这是因为,R1-Zero完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。
这就表明,在某些领域,SFT并非实现准确清晰CoT的必要条件,完全有可能让AI通过纯粹的RL方法实现广泛推理能力。


以下为Mike Knoop的完整分析。
从此,推理计算需求激增
上周,DeepSeek发布了他们新的R1-Zero和R1‘推理’系统,在ARC-AGI-1基准测试上的表现可与OpenAI的o1系统相媲美。
R1-Zero、R1和o1(低算力模式)都取得了15-20%的得分,而GPT-4o仅为5%——而这已是多年纯LLM scaling的巅峰成果。
根据本周美国市场的反应,公众也开始理解了纯LLM scaling的局限性。
然而,大多数人仍没有意识到推理计算需求即将激增的问题。
2024年12月,OpenAI发布了一个新的突破性系统o3,经过验证,该系统在低算力模式下得分76%,高算力模式下得分88%。
o3系统首次展示了计算机在面对全新、未知问题时进行适应的通用能力。

尽管o3在ARC-AGI-1基准测试中取得了突破性的成绩,但这一科技大事件却在主流媒体中几乎未被报道,也未引起广泛关注。
这是AI和计算机科学领域的一个极其重要的时刻,这些系统值得深入研究。
然而,由于o1和o3是闭源的,我们只能依靠推测进行分析。
幸运的是,借助ARC-AGI-1,以及现在(几乎)开源的R1-Zero和R1,我们能够进一步加深对这一领域的理解。
这里的‘几乎’指的是,DeepSeek并未公布从零开始复现其模型权重的方法。
特别值得注意的是,相比R1,R1-Zero具有更重要的研究价值。

R1-Zero比R1更值得分析:它消除了人为瓶颈
在对o1和o3的分析中,ARC Prize团队对这些推理系统的工作原理进行了推测。
它们的关键思路如下:
-
为特定问题领域生成思维链(CoT)。
-
使用人工专家(‘监督微调’SFT)和自动化机器(‘强化学习’RL)的组合对中间的CoT步骤进行标注。
-
利用(2)中标注的数据训练基础模型。
-
在测试时,模型会基于这一推理过程进行迭代推理。
下图回顾了用于各模型用于迭代采样的技术,及其在ARC-AGI-1评分的相关情况。

随着DeepSeek发表的新研究,ARC Prize团队就可以更好地验证自己的推测。
一个关键的发现是,LLM推理系统在适应新颖性(以及提高可靠性)方面的提升,主要沿着以下三个维度展开:
-
为CoT过程模型的训练添加人工标注,即SFT(监督微调)。
-
使用CoT搜索而非线性推理(即每个步骤并行进行CoT推理)。
-
进行整体CoT采样(即并行推理整个轨迹)。
第(1)点受到人工数据生成的限制,因此决定了哪些领域的推理系统能从中受益最大。
例如,在o1系统上,MMLU中的专业法律类目得分远低于数学和逻辑类目,这令人颇感意外。
第(2)和(3)点的主要瓶颈在于计算效率。
o1和o3都在ARC-AGI-1基准测试上表现出对推理计算量的对数式改进,即它们在测试时使用越多的计算资源,基准准确率就越高。
同时,不同的计算方式会影响这条曲线在x轴上的位置。
ARC Prize团队认为,DeepSeek最有趣的做法是单独发布了R1-Zero。R1-Zero不使用SFT(即不依赖人工标注),完全依赖强化学习(RL)。
R1-Zero和R1在ARC-AGI-1上的得分高度一致,分别为14%和15%。
此外,DeepSeek自己发布的基准测试结果也表明R1-Zero和R1的表现相近,例如在 MATH AIME 2024上的得分分别为71%和76%(相比之下,基础模型DeepSeek V3的得分仅为约40%)。
在论文中,R1-Zero的作者指出:‘DeepSeek-R1-Zero在可读性较差和语言混杂等方面存在挑战’,这一点也在网络上得到了印证。
然而,在ARC Prize团队的测试中,他们却几乎没有发现R1-Zero在ARC-AGI-1上表现出不连贯性,而这一测试任务与该系统通过强化学习训练的数学和编程领域相似。
综合这些发现,ARC Prize团队得出了以下结论:
-
在具有强可验证性的领域,SFT(即人工专家标注)并非实现准确且清晰的 CoT(思维链)推理的必要条件。
-
R1-Zero的训练过程能够通过RL优化,在token空间内自发构建内部的特定领域语言(DSL,Domain-Specific Language)。
-
SFT在提升CoT推理的跨领域泛化能力方面是必要的。
这一点符合直觉,因为语言本质上也是一种推理DSL。相同的‘词’可以在一个领域中学习,并在另一个领域中应用,就像程序一样。

而纯RL方法目前尚未能够发现一个广泛共享的词汇体系,这可能会成为未来研究的一个重要方向。
最终,R1-Zero展示了一种潜在的扩展路径——即使在训练数据采集阶段,也完全消除了人工瓶颈。
可以肯定的是,DeepSeek 的目标是挑战OpenAI的o3系统。
接下来的关键观察点在于:SFT是否仍然是CoT搜索和采样的必要条件,或者是否可以构建一个类似‘R2-Zero’的系统,在相同的对数式推理计算扩展曲线上继续提升准确率。
根据R1-Zero的实验结果,团队认为,在这种假设的扩展版本中,SFT并不是超越ARC-AGI-1所必需的条件。
用更多资金,换取AI的可靠性
从经济角度来看,AI领域正在发生两大重要变化:
-
投入更多资金,以获得更高的准确性和可靠性。
-
训练成本正在向推理成本转移。
这两点都将极大地推动推理计算的需求,同时也不会抑制对更强计算资源的需求,反而会进一步增加计算需求。
AI 推理系统的价值,远不止于提高基准测试中的准确率。
当前阻碍AI更广泛自动化应用(即推理需求)的首要问题,就是可靠性。
ARC Prize团队曾与数百位试图在业务中部署AI智能体的Zapier客户交流过,他们的反馈高度一致:‘我还不信任它们,因为它们的工作表现不够稳定。’
以前,ARC Prize曾提出,朝着ARC-AGI方向的进展将提升AI可靠性。
LLM智能体的主要挑战在于,它们需要强有力的本地领域控制才能稳定运行。
而更强的泛化能力,要求AI能够适应全新的、未见过的情况。如今,已有证据表明这一观点是正确的。
因此,Anthropic、OpenAI、Apple等多家公司纷纷推出AI智能体也不足为奇。

由于可靠性需求,智能体将推动短期内的推理计算需求增长。
此外,开发者可以选择投入更多计算资源,以提高用户对系统的信任度。
然而,更高的可靠性并不意味着100%的准确性——但它能让错误更加稳定、可预测。
这反而是可接受的,因为当准确率较低时,用户和开发者可以通过提示词更稳定地引导 AI行为。
过去被认为计算机无法解决的问题,如今都可以用金钱衡量其解决成本。随着AI计算效率的提升,这些成本也将逐渐下降。
推理即训练:AI数据获取范式或将永久转变
另一个正在发生的重要变化,是用于LLM预训练的数据来源。
过去,大多数训练数据要么是购买的,要么是从网络爬取的,要么是由现有的LLM合成生成(例如蒸馏或数据增强)。
但推理系统提供了一种全新的选择——生成‘真实’数据,而非传统意义上的‘合成’数据。
AI行业通常将‘合成数据’视为质量较低的数据,这些数据通常是通过LLM循环生成的,仅仅是为了增加训练数据的总体规模,但其收益会逐渐递减。
如今,借助推理系统和验证器,我们可以创造全新的、有效的数据来进行训练。这可以通过两种方式实现:
-
离线生成 ——开发者支付费用来创建数据。
-
推理时生成 ——终端用户支付费用来创建数据。
这是一种引人注目的经济模式转变,可能会导致AI系统开发者之间出现‘赢家通吃’的局面。
拥有最多付费用户的AI公司将拥有巨大的数据垄断优势,因为这些用户在无形中资助了新高质量数据的创建,而这些数据反过来又进一步提升模型能力,使其更受用户青睐……由此形成一个自增强的良性循环。
如果我们能够突破人类专家CoT标注的瓶颈,并构建一个极高效的搜索/合成+验证系统来自动生成新数据,那么可以预见,未来将会有大量计算资源投入到这些推理系统中。
因为这些系统的训练效果将直接与资金投入和数据输入量挂钩,也就是说,只要投入资金和原始数据,模型就会变得更强。
最终,这种AI训练模式将彻底取代基于人类生成数据的预训练方法。

结论:DeepSeek推动全世界科学发展
随着推理需求的增长变得更加明确,市场将继续经历调整。
AI 系统的效率提升不仅会推动更多的应用,这不仅符合杰文斯悖论,更重要的是,更高的计算效率解锁了全新的训练范式。

随着R1的开源和可复现性,越来越多的个人和团队将探索CoT和搜索技术的极限。
这将帮助我们更快地厘清当前AI研究的前沿在哪里,并推动一波技术创新浪潮,从而加速通向 AGI的进程。
已经有几位研究者告诉ARC Prize团队,他们计划在2025年ARC奖中使用R1风格的系统,这让人非常期待看到最终的结果。
R1的开源,对整个世界来说都是一件好事。DeepSeek推动了科学的前沿发展,并为AI 研究带来了新的突破。
责任编辑:何俊熹


APP专享直播
热门推荐
意大利总理提议北约集体防御条款适用于乌克兰 收起意大利总理提议北约集体防御条款适用于乌克兰
- 2025年03月08日
- 01:25
- APP专享
- 扒圈小记
4,578
独家|华为正式组建医疗卫生军团
- 2025年03月07日
- 14:35
- APP专享
- 扒圈小记
3,241
特朗普:与乌克兰打交道更困难,他们已经“无牌可打”
- 2025年03月07日
- 23:37
- APP专享
- 北京时间
2,522

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 00:27:08
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:26:42
人工智能是后期主要发展方向,这点没有任何疑问,人工智能板块的炒作也是后期主要热点,这点也没有疑问,但近期涨幅确实有点大了,树不能长到天上去,虽然后期还有行情,但短期也有调整的风险。该消息主要涉及的是AI+教育,前期也已经经过了多次炒作,所以,大家还是要注意追涨的风险。另外,骏利亨德森投资环球科技领先团队表示,近期减持中资科技股,将资金调回美股。这个信号也要引起大家的注意。三、美国2月非农就业人数略低于市场预期 降息预期降温美国2月季调后非农就业人口15.1万人,预期16万人,前值由14.3万人修正为12.5万人。数据公布后,美国短期利率期货下跌;交易员不再押注美联储5月降息。美国利率期货交易员现在押注美联储要等到6月才能重新开始降息。以前市场预期美联储将在12月份才有降息,随后提到5月份降息,现在美国2月非农就业人数低于预期,市场不再预期5月份会有降息,总之,美联储要降息时,公布的数据都是符合降息的;否则,美国公布的数据都是不利于降息。一句话就是美联储通过不断地恐吓,将资金留在国内,给美国服务,但美元指数的大幅回调,说明资金正在逃离美国,东升西落,美国正在进入衰退期,大摩将2025年美国GDP增长预测下调至1.5%,之前的预测为1.9%,这个应该也是信号。资金都是逐利的,只要有一小部分资金能够进入A股市场,A股今年出现牛市是可能的,但前提是内资不能天天砸盘!下周重要事件将要落幕,大盘应该会迎来震荡,但中期走势还是向好的,所以,大盘回调将是机会。今天是三八节,没有太阳、花朵不会开,没有爱、幸福不会来,没有妇女,也就没有爱,所以,妇女是爱的根源,也是爱的源泉,祝天下妇女三八节快乐! -
趋势领涨今天 00:26:37
昨天港股再创新高,港股这波走势确实很牛,港股恒生指数大涨超过32%,恒生科技指数大涨近50%,主要原因就是港股里面有国内科技股巨头腾讯、阿里等,而A股连上攻3400点的勇气都没有,主要原因就是量化资金收割,垃圾股太多,港股炒业绩,A股炒垃圾,这就是宿命!所以,我们始终认为,本轮炒作要盯紧港股,港股一旦见顶,A股必定见顶,只要港股能够继续上行,最终资金会流向A股,因为以前港股便宜,A股跟港股的逆差较大,但经过本轮上涨以后,A股跟港股的逆差已经大幅缩小,随着后期进一步缩小,A股就会变成低估了,所以,对今年的行情不悲观,但短期不会一帆风顺。一、华为正式组建医疗卫生军团据科创板日报,华为正式组建医疗卫生军团。据悉,医疗卫生军团将重点构建AI辅助诊断解决方案体系,推动医疗大模型在临床场景的应用。华为作为国内领军企业,不管走到哪个行业,都会引发大家的关注,华为+都将是行业龙头,比如华为算力,华为汽车等,现在华为组建医疗卫生军团,这就是华为+医疗,再叠加AI+医疗,后期医药板块会迎来机会,当然重点是跟AI对应,比如医疗、创新药方向等。二、北京:从2025年秋季学期开始 全市中小学校开展人工智能通识教育北京市推进中小学人工智能教育工作方案发布,从2025年秋季学期开始,全市中小学校开展人工智能通识教育,每学年不少于8课时,实现中小学生全面普及。学校可将人工智能课程独立设置,也可与信息科技等课程融合开展。 -
趋势领涨今天 00:26:34
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-03-07 23:56:04
晚间重大消息:1、美国2月非农就业人数增加15.1万人,不及市场预期;美国2月失业率为4.1%,预估为4%,前值为4%。2、高盛将美国2025年GDP增长预期从此前的2.2%下调至1.7%,摩根士丹利则从此前的1.9%下调至1.5%。3、美联储主席鲍威尔表示,美联储不需要急于调整利率;特朗普政府政策影响的不确定性仍然很高;不会对一两项超出预期的经济数据做出过度反应。4、美股三大指数集体收涨,道指涨0.52%,本周累计下跌2.37%;纳指涨0.7%,本周累计下跌3.45%;标普500指数涨0.55%,本周累计下跌3.1%。热门中概股多数收涨,纳斯达克中国金龙指数涨0.47%,本周累涨4.93%。15、WTI原油期货结算价涨1.02%,报67.04美元/桶,本周累计下跌3.9%;布伦特原油期货结算价涨1.19%,报70.36美元/桶,本周累计下跌3.36%。 -
数字江恩2025-03-07 09:44:18
简单来说,3384后已经震荡了2周时间了,再震荡主要也就是下周一二而已。所以下周前半周关注3336+-10区间支撑,只要不跌破,大盘还会继续向上运行。 -
数字江恩2025-03-07 09:44:12
30分钟图来看,15分钟级别的abc只是将大盘拉回了前三角形的轮谷线位置,而宽幅震荡则是在红色轮谷线下的横盘震荡箱体。下周5分钟图的3336+-10只要不跌破,那么横盘震荡完毕,大盘必将站上红色轮谷线。至于站上红色轮谷线后的首轮高度,下周末再说不迟。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:44:00
这是3384之后的5分钟震荡结构,简单来说,下周出还可以有震荡,但是不应该明显超过图上第一轮的回踩,即第一轮最低点3337不应该跌破超过10个点了,3336+-10支撑,也就是不有效跌破5周线,这个震荡结构都将要完美而开始新的1上涨。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:43:47
首先看15分钟图,对前3494的下跌,核心图上蓝色轮峰线不应该再次跌回,本周四拉起来后,以纪念馆不再是问题。预期3140后运行abc+宽幅震荡+12345的结构,目前宽幅震荡并未超出限制,便5分钟图看震荡细部结构。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:43:25
板块来看,本周变化较大,没有持续性热点。工业母机、部分机器人(sz300024)细分如减速器相对来说持续性较好,其余的板块都是涨涨跌跌。