AI大模型分不清9.11和9.9谁更大?Kimi母公司月之暗面回应来了

AI大模型分不清9.11和9.9谁更大?Kimi母公司月之暗面回应来了
2024年07月18日 13:57 媒体滚动

月之暗面表示,我们更加要做的是不断增强底层基础模型的智能水平,让大模型能够在各种复杂和极端情况下依然表现出色。

9.11和9.9哪个数字更大?这个问题近期“困扰”了无数AI大模型。银柿财经测试发现,在被问及上述问题时,百度文心一言、阿里通义千问得出的结论是9.9比9.11大,而ChatGPT和Kimi则得出了相反的结论。

具体来看,ChatGPT与Kimi都将数字分为整数和小数两个部分,两个数字整数都为9,因此相等。但在小数部分的比较中,Kimi回答由于0.11大于0.9,因此9.11大于9.9;ChatGPT则提出由于11大于9,所以9.11比9.9大。

Kimi的回答

ChatGPT的回答

相比之下,文心一言与通义千万则将数字的小数部分拆成多位,逐位比较,在比较第一位时,由于1小于9,直接得出9.9大于9.11的结论。

文心一言的回答

据悉,类似的算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上指出,“ChatGPT-4o在回答中认为13.11比13.8更大。一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”

对于上述问题,Kimi母公司月之暗面回应银柿财经称,“其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”

月之暗面也进一步表示,但要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。

360创始人周鸿祎在其个人账号发布视频评论此事。他解释称,“大模型的全称叫大语言模型,首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型不懂数学,而是按照一个文字的逻辑来进行对比。

对于解决这类数学问题,周鸿祎给出了三个解决方案,其一是对大模型进行专门的数学训练,二是通过搜索,与已有的答案进行匹配,三是调用外部函数或者程序来计算。

海量资讯、精准解读,尽在新浪财经APP
AI 文心

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 07-26 龙图光罩 688721 --
  • 07-23 博实结 301608 --
  • 07-22 力聚热能 603391 --
  • 07-15 绿联科技 301606 21.21
  • 07-11 科力装备 301552 30
  • 新浪首页 语音播报 相关新闻 返回顶部