业内:测试越来越难以评估AI水平,普通人更难感受AI进步

业内:测试越来越难以评估AI水平,普通人更难感受AI进步
2025年01月13日 16:18 网易新闻

1月13日消息,2024年底,OpenAI前员工凯尔西·派珀(Kelsey Piper)撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈。她认为,这个问题并不像许多人认为的那样重要:现有的人工智能系统已经足够强大,能够深刻改变我们的世界。无论规模定律是否成立,未来几年都将由人工智能的进步主导。

文章发布不到一周后,OpenAI推出了年终更新,其中包括最新的大语言模型o3。虽然o3未能完全证明“规模定律”在未来是否仍是推动人工智能进步的核心规律,但它无疑粉碎了“人工智能发展已陷入瓶颈”的说法。

o3的表现极其令人惊叹。为了更好地理解它的非凡之处,我们需要先探讨如何科学地评估人工智能系统。

人工智能标准化测试

如果想比较两个语言模型的表现,需要用一组它们以前从未接触过的问题进行测试。然而,这远比听起来要困难得多,因为这些模型在训练过程中已经接触了大量文本,早已覆盖了绝大多数测试内容。

因此,机器学习研究员通常会设计基准测试,来评估人工智能系统在数学、编程、阅读与理解文本等多个任务上的表现,并将这些结果与人类进行比较。曾经,人们用美国数学奥林匹克竞赛的题目以及物理、生物和化学问题测试人工智能。

问题在于,人工智能发展得太快,不断打破基准测试的限制。一旦人工智能在某个基准测试中表现优异,人们便认为该测试已经“饱和”,无法再有效区分模型的能力,因为几乎所有模型都能取得接近满分的成绩。

2024年堪称“基准测试如太平洋(3.950, -0.06, -1.50%)般饱和”的一年。过去,人们用名为GPQA的基准测试人工智能。这种测试涵盖物理、生物和化学领域,难度高到即使是相关领域的博士生也很难得分超过70%。但如今,人工智能的表现已超过了相关领域的博士,因此该基准已失去评估意义。

人工智能模型在数学奥林匹克预选赛中的表现也不输顶尖人类选手。一个名为MMLU的基准测试用于评估模型的语言理解能力,涵盖多个领域。现在,最好的模型已经“攻克”了这个基准。另一个名为ARC-AGI的测试原本被设计为极其困难,旨在衡量通用的人类智能水平,但经过调优后,o3在这一测试中取得了令人瞩目的88%得分。

我们仍然可以设计更多的基准测试。然而,以人工智能的进步速度来看,每个新基准的有效期可能只有短短几年。更重要的是,新的基准测试越来越需要衡量人工智能在超出人类能力范围的任务上的表现,才能准确描述其能力和局限性。

当然,人工智能仍可能犯一些低级且令人恼火的错误。但如果你最近六个月没有关注人工智能的最新发展,或者只体验过免费版的语言模型,那么你可能高估了它们犯错的频率,也低估了它们在高难度、智力密集型任务上的能力。

隐而不见的进步

《时代》杂志最近的一篇文章指出,人工智能的发展并非“触及瓶颈”,而是变得愈发隐蔽,其主要进展以一种难以察觉的方式快速推进。

每个人都能明显区分出5岁孩子学算术和高中生学微积分之间的差别,因此这类进步显得直观且清晰。但多数人无法分辨一名数学专业大一新生与世界顶级数学家之间的差距,因此人工智能在这些高阶领域的进步往往不被感知。

然而,这种进步的意义非凡。人工智能将通过自动化处理大量曾由人类完成的智力工作来深刻改变世界,而这一变革主要受以下三大因素驱动:

这三大驱动因素将塑造未来数年的人工智能发展,也充分展现了其重要性。不论你是否喜欢人工智能的崛起(就我个人而言,我并不认为这一世界性转型正在以负责任的方式推进),这三个领域都未遇到“瓶颈”,而且其中任何一个都足以持续改变我们的世界。(辰辰)

海量资讯、精准解读,尽在新浪财经APP
人工智能 AI 基准
0条评论|0人参与网友评论
最热评论

APP专享直播

开播时间 | 1-15 14:00
富国基金: 风起潮涌 春暖香江 富国基金2025海外投资策略会
开播时间 | 1-15 14:00
华夏基金:指数红绿灯|A股开年强震,投资如何应对?
开播时间 | 1-15 10:30
海通证券董栋梁,海富通基金纪君凯:市场风险偏好转变,高股息资产还香吗?
开播时间 | 1-15 10:30
招商基金 许荣漫、邓和权:CES上爆火的机器人,基金经理投资解析
开播时间 | 1-15 10:00
国联基金 潘巍:低利率时代如何选资产——2025年度固收投资策略
开播时间 | 1-15 10:00
华夏基金:国债利率“1%”时代,2025开门如何投?
开播时间 | 1-15 10:00
天弘基金:光伏机器人能反弹吗?
开播时间 | 1-15 09:30
招商基金 叶幸明、初荣琪:走!去新兴亚洲!—— 探寻新兴亚洲的四颗明珠
开播时间 | 1-15 09:00
华夏基金:解盘一刻
开播时间 | 1-15 09:00
光大证券雪姐:阳光早参-A股放量大反攻!反弹还是反转?
开播时间 | 1-15 14:00
富国基金: 风起潮涌 春暖香江 富国基金2025海外投资策略会
开播时间 | 1-15 14:00
华夏基金:指数红绿灯|A股开年强震,投资如何应对?
开播时间 | 1-15 10:30
海通证券董栋梁,海富通基金纪君凯:市场风险偏好转变,高股息资产还香吗?
开播时间 | 1-15 10:30
招商基金 许荣漫、邓和权:CES上爆火的机器人,基金经理投资解析
开播时间 | 1-15 10:00
国联基金 潘巍:低利率时代如何选资产——2025年度固收投资策略
开播时间 | 1-15 10:00
华夏基金:国债利率“1%”时代,2025开门如何投?
开播时间 | 1-15 10:00
天弘基金:光伏机器人能反弹吗?
开播时间 | 1-15 09:30
招商基金 叶幸明、初荣琪:走!去新兴亚洲!—— 探寻新兴亚洲的四颗明珠
开播时间 | 1-15 09:00
华夏基金:解盘一刻
开播时间 | 1-15 09:00
光大证券雪姐:阳光早参-A股放量大反攻!反弹还是反转?
上一页下一页
1/10

热门推荐

奖!4名少年,每人10000元! 收起
奖!4名少年,每人10000元!

奖!4名少年,每人10000元!

  • 2025年01月14日
  • 10:48
  • APP专享
  • 广西台新闻910
  • 1,483
APP专享
别再尬演美女了!一脸憔悴、面部僵硬,这是迷倒男人该有的皮囊?

别再尬演美女了!一脸憔悴、面部僵硬,这是迷倒男人该有的皮囊?

  • 2025年01月15日
  • 01:24
  • APP专享
  • 广西台新闻910
  • 811
APP专享
海拔4400多米安置点村民洗上热水澡,西藏消防为震区提供消防淋浴车

海拔4400多米安置点村民洗上热水澡,西藏消防为震区提供消防淋浴车

  • 2025年01月15日
  • 03:12
  • APP专享
  • vsta
  • 605
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.17 -0.95%
京东方A 4.27 -1.16%
TCL科技 4.86 -2.21%
中远海控 14.50 +0.07%
格力电器 46.10 +1.01%
广告

7X24小时

  • 01-16 亚联机械 001395 --
  • 01-16 海博思创 688411 --
  • 01-14 富岭股份 001356 5.3
  • 01-13 兴福电子 688545 11.68
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭