移动客户端

新浪科技> 滚动新闻 > 正文

AI进化成人的速度可能比你想象的还慢

AI进化成人的速度可能比你想象的还慢

2025年11月12日 06:32 快科技

新浪财经APP 缩小字体放大字体收藏微博微信

吹了这么久AI，到底嘛时候才能超越人类啊？

其实，圈内人对 AI 都有一个终极期望，就是实现 AGI （通用人工智能），说白了，就是造出“和人一样聪明的AI”。

咱去马斯克的社交平台上逛一圈，会发现他三句不离AGI。。

OpenAI的奥特曼也在疯狂预言，AGI即将到来，也就这三五年的事儿了。

但这玩意，到底咋衡量呢？俗话说得好，人和人的区别，比人和猪的区别还大。。到底啥水平，才能和人一样聪明啊？

就连天天为了AGI吵架的大佬们，也根本说不出来，AGI到底是个啥。。

合着都在这虚空对线是吧。

所以最近，一帮顶尖大佬看不下去了，几十号人联手发了篇论文，作者还是全明星阵容，包括图灵奖得主、谷歌前 CEO 等等，他们联合起来，给出了目前为止第一个 AGI 的量化定义。

他们也顺便用GPT模型做了个测试，结果显示，如果AGI是100分，GPT-5只有58分，不及格的水平。

这帮大佬的核心观点是：AGI，就是一种能达到“一个受过良好教育的成年人”的能力的人工智能。

他们把心理学中一个最权威的理论，CHC 理论，给AI搬过来了。

CHC 的观点，简单来说，就是智力这玩意，不是一个单一的标准能衡量的东西，需要多维度考察。

说白了，这就和高考差不多。一门课强根本不够，你得门门都强，才证明你厉害。

所以，他们把 AI 的能力分成了 10 个核心能力，每个占了 10% 的分。它们分别是：

(K) 通识知识、(RW) 读写能力、(M) 数学能力、(R) 即时推理、(WM) 工作记忆、(V) 视觉处理、(A) 听觉处理、(S) 反应速度、(MS) 长期记忆存储、 (MR) 长期记忆检索。

这里面比较抽象的，可能就是工作记忆和长期记忆了。

工作记忆，其实就是短期记忆，就是说我刚刚提过的东西，你现在还能记得起来；而长期记忆就是，AI通过跟我的对话，永久性学到了新东西，就像你上过学，即使你毕业了，“奇变偶不变”还刻在你DNA里一样。。

每一种能力，他们都会叫AI测试，也就是写他们精心准备的测试题。比如(R) 即时推理这一块，他们就专门找了些略微烧脑的问题，比如：

“David认识张先生的朋友Jack，Jack认识David的朋友林女士。认识Jack的人都有硕士学位，认识林女士的人都是上海人。所以谁既是上海人又有硕士学位？”（测试你是不是AI的时候到了）

他们找了OpenAI的两员大将，GPT-4（2023）和 GPT-5（2025）来考试。结果，GPT-4 总分 27。 GPT-5 总分 58，合计也没达到100分。

而且，咱来看看这成绩单，有拉满的，也有拉裤兜的，纯纯严重偏科。

比如 GPT-5，在通识(K)、读写(RW)、数学(M)这几项上，直奔 9 分 10 分。所以说目前来看，这几项是AI的强项。

而 (MS) 长期记忆存储这项，GPT-5纯纯大光头，3-4分的也有一堆。而GPT-4更不用说，好几项都是0分。

这一项其实考的是， AI 能不能持续学习获得信息。因为论文发现，现在的 AI 根本就是个健忘症，你今天教它的东西，明天它就忘得一干二净。

他们做测试的方法，就是第一天跟AI讲一些东西，然后第二天单开一个对话，再让AI回想。

都不用猜，包想不起来的，大伙用过都知道，新开窗口就会清空记忆，那得分不是0就怪了。。

有的人会反驳，现在的AI早就有永久记忆了。但文章中其实谴责了这一点，现在AI的记忆，根本不是真正的记忆，他们只是在假装自己有记忆。

作者们把这招叫做 “能力扭曲” ，即利用某些领域的优势来弥补其他领域的严重弱点，创造出一种“AI真有能力”的错觉。像现在的AI记忆，其实就是在疯狂卷上下文长度，或者通过知识库来实现，实际上就是外挂，模型本身是一点记忆都没有。

除了记忆力，长期记忆检索ai们也很拉，说白了，就是检测幻觉，别睁眼说瞎话。

当然，还有一项大伙都很拉的功能，(V) 视觉处理。 GPT-4是0分，而GPT-5进化过后，也只来到4分。

它考的不是简单的“这图里有啥”，考的是视觉推理。这对大模型来说，可就难多了。比如说，咱来试一道：

“下面这 4 个 2D 展开图里，哪一个不能折成左边那个立方体？”

还真有点难度，但我们人类稍加思索，还是能做出来的。我也去求证了下Gemini，结果确实是无法战胜。

这也说明，AI的眼睛和脑子，目前配合的不是很好，还没有人类这种，边看边想就解决问题的能力。

当然，这份报告，肯定还是不够完美的。除了这十个维度，人脑还有联想等其他难以名状的能力，人类可太复杂了，不是几道题就能测明白的。

但它最大的价值，是给当下的 AI 做了一次全面诊断：AI现在还是瘸腿，在一些人类最基本的认知能力上，仍然有严重的缺陷。

而且，现在的 AI 厂商会还用一些捷径，来掩盖这些弱点。

因此，这篇文章也在给大家敲警钟：这样搞出来的 AI，是到不了 AGI 的。

但奥特曼在前一阵的直播里还说了，AGI在路上了，我只能说，走着瞧了。

当然，俺觉得，这套标准本身也有不小的槽点。

人家AGI ，凭啥非要模仿人类啊？它很可能是一种完全不同的智能。硬拿人类的 CHC 理论去套 AGI，是否有点刻舟求剑的意味了。

而且，这标准定得也有点高了。讲实话，AI 要能达到一个“没受过教育的小孩”的水平，就已经无敌了。更别提有相当一部分人类，自己都通不过这个测试。。

不过，不管怎么吐槽，有人提出标准就是好事。

它最大的意义，是终于把 AGI 这个话题从玄学的范畴，拉回到了一个可以讨论的具体问题上。

就算这个标准不完美，它也会逼着整个行业开始思考，我们到底在追求什么，以及我们到底缺了什么。

这总比大家都在吹牛，说自己快要实现 AGI要强得多。

关键词 : AI

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部