最近,OpenAI 的一位前员工发表了一篇 165 页的超长博文,对 AI 发展的未来做出了一系列预测。文章的核心观点可以概括成一句话:人类很可能在 2027 年实现 AGI。
![](http://n.sinaimg.cn/spider20240605/743/w1080h463/20240605/7e6b-b7fc35bc9ea32be0de97a6f49b229df6.png)
AGI 到底是科技公司画的大饼,还是可预测的未来?几天前,Anthropic 一名 25 岁的高管在博客上发文,表示自己已经准备好了 3 年后退休,让 AI 取代自己的工作。
最近,OpenAI 前员工的一篇博客文章也有类似的观点。
![](http://n.sinaimg.cn/spider20240605/564/w1080h284/20240605/5527-02c6cdcbc7411123b9297d5459af4a66.png)
他不仅认为 AGI 很可能实现,而且「奇点」预计就在 2027 年。
文章作者名为 Leopold Aschenbrenner,于 2023 年入职 OpenAI 超级对齐团队,工作了 1 年 6 个月。
Aschenbrenner 认为,到 2027 年,大模型将能够完成 AI 研究人员或工程师的工作。他的论据也很简洁直观 —— 你不需要相信科幻小说,只需要看到图上的这条直线。
画出过去 4 年 GPT 模型有效计算量的增长曲线,再延伸到 4 年后,就可以得出这个结论。
![](http://n.sinaimg.cn/spider20240605/313/w1080h833/20240605/e88a-ba158e300dd8f14aeb3a55e7a21f36dc.png)
距离 GPT-4 发布已经过去了一年多的时间,包括 Gary Marcus 和 Yann LeCun 在内的很多人都不再对模型的 Scaling Law 深信不疑,甚至持否定态度。
虽然我们看起来正在碰壁,但 Aschenbrenner 提醒我们:往后退一步,看看 AI 已经走了多远。
直觉上,我们可以将模型能力类比为人类的智能水平,从而衡量 AI 能力的进步:从 2019 年学龄前儿童水平的 GPT-2,到 2023 年聪明高中生水平的 GPT-4,OpenAI 只用了 4 年。
用 4 年从学龄前读到高中,是人类智力发展速度的 3 倍不止。
![](http://n.sinaimg.cn/spider20240605/653/w1080h373/20240605/4284-2a548724a5992f1bfc6258f888f76c64.png)
GPT-2 只能写出一个半连贯的段落,几乎不能顺利地从 1 数到 5。在文章总结任务中,生成的结果只比随机选 3 个句子稍微好一点。
![](http://n.sinaimg.cn/spider20240605/0/w1080h520/20240605/7f1f-dd61ce7aaab46752f2e7ea7416efc78d.png)
GPT-3 能生成更长、逻辑更一致的段落,具备了少样本学习能力,还可以完成一些基本的算术或代码任务。
![](http://n.sinaimg.cn/spider20240605/196/w1080h716/20240605/e5fb-4b8bfd6c805553f25f1fcb18a89edb55.png)
GPT-4 不仅可以思考和推理数学问题,还能编写复杂的代码并迭代调试。语言能力也是飞跃性的提高,不仅能在更长的文本中实现逻辑和内容的一致,也能掌握各种复杂话题。
在所有测试中,GPT-4 都能击败绝大多数高中生,包括 AP 和 SAT 分数。
![](http://n.sinaimg.cn/spider20240605/240/w1080h1560/20240605/0cbf-f27a40b11ac82c201014cf8f2cb9db49.png)
从基准测试的角度衡量,可以看到下面这张图。
根据 Contextual AI 去年 7 月发布的研究结果,AI 在语言理解、阅读理解、文字细微差异的解释、图像识别等方面的能力都已经超过了人类表现。
![](http://n.sinaimg.cn/spider20240605/147/w1024h723/20240605/a2d5-d09cd8276900900583ea617c73ba5a99.png)
预测性推理、一般性知识测试和解决数学问题等任务上也与人类水平接近。此外也可以看出,在模型能力增长得越来越快的同时,基准测试愈发捉襟见肘。
过去需要几十年的时间才能达到饱和的基准测试,现在只需要几个月。
2020 年,MMLU 测试发布,相当于高中和大学的所有最难考试的水平,研究人员希望它可以经得起时间考验。
结果仅仅三年后,LLM 就几乎解决了这个测试,像 GPT-4 和 Gemini 这样的模型可以获得超过 90% 的评分。
数学测试也是一样的趋势。2021 年 MATH 基准发布时,SOTA 模型只能正确回答约 5% 的问题。
当时很多研究者都认为,算法方面的根本性突破才能提升模型的数学能力,未来几年能取得的进展非常微小。
![2021 年,研究人员对模型未来在 MATH 数据集上的表现给出了非常悲观的预测](http://n.sinaimg.cn/spider20240605/568/w1080h288/20240605/7aef-fd84e4594dbf35a8e9a7b781711a0c64.png)
然而,又一次超乎所有人的想象。2022 年一年的时间内,模型准确率从 5% 上升到 50%,最近的 SOTA 可以达到 90%。3 年前公认难度很高的基准测试,很快饱和。
基准测试似乎也无法跟上模型的速度了。
为了更严谨地评估深度学习的发展速度和趋势,作者使用了 OOM 指数,即「计算数量级」(order of magnitude)。
不仅要考量模型的算力和算法效率,作者还引入了一种新的概念,「解开收益」(unhobbling gains)。
算力规模
刚刚结束的 ComputeX 大会上,英伟达、AMD 纷纷宣布了芯片年更计划。
这说明了什么?大模型性能呈指数级增长,对算力需求也在不断放大。
而在微软 Build 大会上,CTO Kevin Scott 更是用海洋动物形象地阐述了,OpenAI 模型进阶对算力的吞噬之极。
![](http://n.sinaimg.cn/spider20240605/633/w1080h1153/20240605/1f1c-5a004203c33902c0741ee91b4918595f.png)
提到算力增长,很多人的第一反应会认为,这是摩尔定律的延伸。
然而作者指出,事实并非如此。AI 硬件的改进速度远远快于摩尔定律。
大模型时代来临前,即使摩尔定律处于鼎盛时期,每 10 年也仅有 1-1.5 个 OOM 的增长。
但现在,每年都有 0.6 个 OOM 的增长,比曾经摩尔定律的 5 倍还多。
![](http://n.sinaimg.cn/spider20240605/501/w1080h1021/20240605/5a75-fe308fa1e71b5b8ad939ba54a7b3f973.png)
Epoch AI 对著名深度学习模型的训练算力进行估算
以 GPT 系列为例,GPT-2 到 GPT-3 实现了设备的过渡,从较小的实验设备变成了数据中心,一年内增长了 2 个 OOM。
GPT-4 延续了这种戏剧性增长,而且从 OpenAI 囤积芯片的动作来看,这个增长速度会逐渐演变为长期趋势。
![](http://n.sinaimg.cn/spider20240605/542/w1080h262/20240605/90c0-57fc6a063646c980a21cd02cf34b61b9.png)
这种庞大的增长,并不能主要归因于摩尔定律,而是投资算力的热潮。
曾经,在一个模型上花 100 万美元是令人发指的想法,没有人会接受;但现在,这只是科技巨头囤芯片、训模型的零头。
过去一年里,科技巨头们谈论的话题已经从 100 亿美元计算集群转向 1000 亿美元集群,再变成万亿美元集群上的竞争。
每隔六个月,董事会的计划里,就会增加一个「0」。
作者预估,「在这个十年结束之前,将有数万亿美元投入到 GPU、数据中心和电力建设中。为支持 AI 的发展,美国至少将电力生产提高数十个百分点」。
![](http://n.sinaimg.cn/spider20240605/223/w1080h743/20240605/05e1-bb61d0527d7e6cbb35ab7de45ca4da8b.png)
随着 AI 产品收入的快速增长,谷歌、微软等公司在 2026 年左右的年收入可能达到 1000 亿美元。
这将进一步刺激资本,到 2027 年,每年的 AI 投资总额可能超过 1T 美元。
![](http://n.sinaimg.cn/spider20240605/98/w1080h618/20240605/a9d9-2f51da13baff987303c57cd5f87e98a6.png)
时间线再拉远,到 2028 年,单个训练集群就需要耗资千亿美元,比一个国际空间站还贵。
而到本世纪末,一个集群就能吞掉 1T 美元,每年产出上亿个 GPU,AI 所需电力占美国发电总量的百分比,将从现在的不到 5% 上升到 20%。
算法效率
对算力的疯狂投资带来的惊人收益是非常明显的,但算法进步的驱动力很可能被严重低估了。
比如,很少有人关注到模型推理成本的大幅下降。
以 MATH 基准测试为例,过去两年内,从 Minerva 到最新发布的 Gemini 1.5 Flash,在 MATH 上取得 50% 准确率(一个不喜欢数学的计算机博士生可以得到 40%)的推理效率提高了将近 3 个 OOM,也就是 1000 倍的效率提升。
![](http://n.sinaimg.cn/spider20240605/344/w1080h864/20240605/327c-cb4ec434536ba61fe142cd9ed037537e.png)
虽然推理效率不等同于训练效率,但这个趋势可以表明,大量的算法进步是可行的,而且正在发生。
从长期趋势来看,算法进展的速度也相当一致,因此很容易根据趋势线做出预测。
回顾 2012 年-2021 年期间 ImageNet 上的公开算法研究,可以发现,训练相同性能模型的计算成本以近乎一致的速度下降,每年减少约 0.5 个 OOM,而且每种模型架构都是如此。
![](http://n.sinaimg.cn/spider20240605/648/w1080h368/20240605/ba4d-2d4431ff24582ad9ab3f2511e670b4be.png)
虽然 LLM 的团队一般不会公开算法效率相关的数据,但根据 Epoch AI 的估算,2012 年-2023 年期间,每年算法效率的收益也约为 0.5 个 OOM,也就是在 8 年时间里提升了 1 万倍。
![](http://n.sinaimg.cn/spider20240605/229/w1080h749/20240605/69dd-826f846970cdeb3dd83cbd0d0708c177.png)
「解开」收益
相比算力和算法效率,「解开」收益带来的提升更加难以量化。
所谓「解开收益」,是指某些情况下模型的原始能力被阻碍了,而通过简单的算法改进可以解锁和释放这些潜在能力。
虽然它也是一种算法改进,但不仅仅是在已有范式内提升训练效果,而是跳出训练范式,带来模型能力和实用价值的跃升。
比如基础的语言模型经过了 RLHF,才变成真正可用的产品。InstructGPT 论文的量化结果显示,根据人类评分者的偏好,有 RLHF 的小模型相当于非 RLHF 的大 100 倍的模型。
再比如,近年来被广泛使用的 CoT 可以为数学或推理问题提供 10 倍多的有效计算能力提升。
上下文长度的增加也是如此。从 GPT-3 的 2k tokens、GPT-4 的 32k,到 Gemini 1.5 Pro 的 1M+,更长的上下文可以解锁更多的用例和应用场景。
训练后改进(post-training improvment)带来的收益也不容忽视。OpenAI 联创 John Schulman 表示,与 GPT-4 首次发布时相比,当前的 GPT-4 有了实质性的改进,这主要归功于释放潜在模型能力的后期训练。
Epoch AI 进行的一项调查发现,在许多基准测试中,这类技术通常可以带来 5-30 倍的有效计算收益。
METR(一个评估模型的非营利组织)同样发现,基于相同的 GPT-4 基础模型,「解开收益」非常可观。
在各种代理任务中,仅使用基本模型时性能只有 5%,经过后期训练可以达到 20%,加上工具、代理脚手架和更好的后期训练,可以达到今天的近 40%。
![](http://n.sinaimg.cn/spider20240605/110/w1080h630/20240605/45b6-5b646deb1dfcc22f515d5e85c4f377bd.png)
与算力和算法效率带来的单一维度的扩展不同,「解开收益」能够解锁模型能力的巨大可能性,带来「阶梯式」、不拘一格的进步。
想象一下,如果 AI 可以使用电脑,有长期记忆,能针对一个问题进行长期思考和推理,而且具备了入职新公司所需的上下文长度,它会有多么强悍的能力?
![算力、算法效率、「解开收益」叠加](http://n.sinaimg.cn/spider20240605/394/w1080h914/20240605/fe36-cf1e392f5ef16c339b7ec27ad31124d9.png)
2027 年,取代所有认知工作
综合考虑算力、算法效率与解开收益这三个方面的叠加,GPT 模型从第 2 代到第 4 代,大致经历了 4.5-6 个 OOM 的有效计算扩展。
此外,从基本模型到聊天机器人,相当于约 2 个 OOM 的「解开收益」。
![](http://n.sinaimg.cn/spider20240605/92/w1080h612/20240605/6ca3-a2cd2366cb7dabc8f37bb1102f5c4989.png)
基于这个发展速度,数一数 OOM,未来 4 年我们可以期待什么?
![](http://n.sinaimg.cn/spider20240605/92/w1080h612/20240605/45e4-e2f2f7ca4ee79ed5860ed7444f452b04.png)
首先,随着计算效率提高,迭代速度会越来越快。假设 GPT-4 训练花了 3 个月的时间,到 2027 年,领先的 AI 实验室将能够在一分钟内训练一个 GPT-4 级别的模型。
而且,由于「解开收益」的存在,我们不能仅仅是想象一个非常聪明的 ChatGPT,还需要把它看成一个非常智能的、能独立工作的 Agent。
到 2027 年,这些 AI 系统基本上能够自动化所有认知工作,或者说是所有可以远程进行的工作。
但是作者同时也提醒道,这其中有很大的误差范围。如果「解开收益」逐渐停滞,或者算法的进展没能解决数据耗尽的问题,就会推迟 AGI 的来临时间。
但也有可能,「解开收益」释放了模型更大的潜能,让 AGI 的实现时间比 2027 年更早。
![](http://n.sinaimg.cn/spider20240605/313/w1080h833/20240605/e65e-105a6948566605976e487f0b9b6ae029.png)
虽然这篇文章有比较全面的论据,但「2027 年实现 AGI」的结论还是引发了不少网友的质疑。
将 GPT-4 的智力水平类比成聪明的高中生,很难让人相信。
![](http://n.sinaimg.cn/spider20240605/466/w1080h186/20240605/e48e-e228f4f3d84e322f84ca4ebc959fe143.png)
也没有谈到一些关键问题,比如当前 LLM 最大的挑战之一 —— 幻觉,这也是 AI 实现自动化工作的巨大障碍。
![](http://n.sinaimg.cn/spider20240605/270/w1080h790/20240605/d008-98d19a54dc368fb1d57e6d228d80a897.png)
有人指责作者,将曲线外插和巨大的误差范围包装成一份技术分析。
![](http://n.sinaimg.cn/spider20240605/666/w1080h386/20240605/a476-81c03593973ba0c60db6f77b1ca11349.png)
![](http://n.sinaimg.cn/spider20240605/454/w1080h174/20240605/0369-92131565d81fa75829960dc075090163.png)
也有人指出,文中经常提及的「有效计算」是一个非常模糊的概念,没有进行严谨准确的定义。
![](http://n.sinaimg.cn/spider20240605/454/w1080h174/20240605/ced8-ed91d9cc35fed8474dd05d6d7891c796.png)
抛开 2027 年这个颇有噱头的结论,作者的论证过程至少可以给我们一个启示 —— 很多情况下,AI 的发展速度会超出所有人的想象。
![GAN 网络从 2014 年到 2018 年的进展](http://n.sinaimg.cn/spider20240605/717/w1080h437/20240605/f017-9f7f0ce37a71be0ed41d417603db0ff9.png)
作者简介
Leopold Aschenbrenner 本科毕业于哥伦比亚大学,大三时入选 Phi Beta Kappa 学会,并被授予 John Jay 学者称号。
19 岁时,以最优等成绩(Summa cum laude)毕业,作为毕业生代表在典礼上致辞。
![](http://n.sinaimg.cn/spider20240605/120/w1080h1440/20240605/7d77-7daf00474519ae1d50d9ffe5e2945766.png)
本科期间,他不仅获得了对学术成就授以最高认可的 Albert Asher Green 奖,并且凭借着「Aversion to Change and the End of (Exponential) Growth」一文荣获了经济学最佳毕业论文 Romine 奖。
![](http://n.sinaimg.cn/spider20240605/711/w1080h431/20240605/1009-155402720cb6a1f719ed791b3cb9cffd.png)
Leopold Aschenbrenner 来自德国,现居风景优美的加利福尼亚州旧金山,志向是为后代保障自由的福祉。
他的兴趣相当广泛,从第一修正案法律到德国历史,再到拓扑学,以及人工智能。目前的研究专注于实现从弱到强的 AI 泛化。
![](http://n.sinaimg.cn/spider20240605/362/w990h972/20240605/2254-c02a2e3a7c527ee41224844c56cf8115.png)
他最近离开 OpenAI 后计划创办一家 AGI 领域的投资公司,已经获得了 Stripe 创始人 Collison 兄弟以及 GitHub 前 CEO Nat Friedman 的投资。
参考资料:
https://situational-awareness.ai/from-gpt-4-to-agi/
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)