OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？|智能体|AI_新浪科技

机器之心PRO · 会员通讯 Week 42

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

OpenAI 提出的 MLE-bench 是什么？MLE-bench 暗示了什么？为什么 OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点？AGI 和 ASI 的定义又变了？用 AI 改进 AI 真的已经实现了吗？从 AGI 到 ASI 转变的关键是什么？...

2. Ilya Sutskever：对 ChatGPT 的深层理解与对 AI 未来的思考

为何 Ilya Sutskever 的访谈再度引起关注？Ilya 在访谈中讲了哪些核心观点？为什么说 ChatGPT 不仅仅是一个 LLM？为什么 Ilya 认为确保输出内容的可靠性才是 AI 未来发展的关键？...

...本期完整版通讯含 2 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 8 项。

本期通讯总计 26516 字，可免费试读至 8%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

日期：10 月 11 日

事件：近日，在社交媒体平台 Reddit 的「Singularity（奇点）」板块，一个名为「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子引发大量关注。「Singularity」板块聚集了诸多对 AI 技术奇点等话题关心的网友，在该帖子下，网友们对于「AI 智能体能够解决 MLE-bench 所有问题就可能会带来奇点」的说法展开了探讨。

OpenAI 提出这个的 MLE-bench 基准测试是什么？[1]

近日，OpenAI 发表论文《MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering》，提出了一个用于评估 AI 智能体在机器学习工程中表现的基准测试「MLE-bench」。在论文的「Impact on AGI Preparedness」部分，OpenAI 提到，「能够解决 MLE-bench 中大部分任务的模型很可能具备执行许多开放式机器学习任务的能力」。

1、MLE-bench 由从 Kaggle 手动筛选了不同领域的 75 个机器学习工程任务组成，包括训练模型、准备数据集和运行实验等，涉及了机器学习领域工程师在前沿实验室中使用的核心日常技能。

2、在设计上，MLE-bench 考虑了两个要素：一是选择具有挑战性且代表现代 MLE 工程工作的任务；二是能够将评估结果与人类水平的表现进行比较。

3、MLE-bench 参考「Kaggle 根据参赛者相对于排行榜的表现向优胜的参赛者颁发铜牌、银牌和金牌」的方式，将实验中 AI 智能体提交的结果与私有排行榜进行比较，为 AI 智能体颁奖。实验结果显示，

① 基于专为 Kaggle 竞赛构建的 AIDE 开源框架，o1-preview 在 16.9%的竞赛中至少获得了 Kaggle 铜牌奖牌；

② 同时，研究发现当智能体被允许有更多的尝试次数时，获得奖牌的百分比显著增加。例如，o1-preview 当从 1 次尝试增加到 8 次尝试时，得分从 16.9%翻倍到 34.1%；

② 每项竞赛的时间上限为 24 小时，时间限制增加后，当智能体有更多的时间迭代解决方案，获得奖牌的百分比有所提高；

③ 研究者比较了 GPT-4o（AIDE）在三种不同硬件设置下的性能，结果显示，GPT-4o（AIDE）在所有实验中表现相似。这表示智能体的性能并没有随 GPU 资源的变化而显著变化，没有有效地利用额外的计算资源。

OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点？

1、OpenAI 在 MLE-bench 论文的「Impact on AGI Preparedness」章节提到，「如果我们的 AI 智能体能够自主执行机器学习研究，它们可能会带来许多积极的影响，比如加速医疗保健、气候科学等领域的科学进步，加速模型的安全和对齐研究，并通过开发新产品促进经济增长。智能体执行高质量研究的能力可能标志着经济的一个转型步骤。」这部分内容，引发了 Reddit 网友的热议。[1]

2、AI 智能体能够解决 MLE-bench 所有问题，就可能会带来奇点吗？雷·库兹韦尔定义「奇点」为加速回报定律达到了极限，技术进步以近乎无限的速度发展，而奇点之后我们将在一个完全不同的世界生活。

3、在「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子下，一类探讨是针对于 AGI、ASI 两者概念的混淆。[2]