AI大模型分不清9.11和9.9谁更大？Kimi母公司月之暗面回应来了|AI_新浪财经

月之暗面表示，我们更加要做的是不断增强底层基础模型的智能水平，让大模型能够在各种复杂和极端情况下依然表现出色。

9.11和9.9哪个数字更大？这个问题近期“困扰”了无数AI大模型。银柿财经测试发现，在被问及上述问题时，百度文心一言、阿里通义千问得出的结论是9.9比9.11大，而ChatGPT和Kimi则得出了相反的结论。

具体来看，ChatGPT与Kimi都将数字分为整数和小数两个部分，两个数字整数都为9，因此相等。但在小数部分的比较中，Kimi回答由于0.11大于0.9，因此9.11大于9.9；ChatGPT则提出由于11大于9，所以9.11比9.9大。

Kimi的回答

ChatGPT的回答

相比之下，文心一言与通义千万则将数字的小数部分拆成多位，逐位比较，在比较第一位时，由于1小于9，直接得出9.9大于9.11的结论。

文心一言的回答

据悉，类似的算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上指出，“ChatGPT-4o在回答中认为13.11比13.8更大。一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”

对于上述问题，Kimi母公司月之暗面回应银柿财经称，“其实我们人类对大模型的能力探索——无论是大模型能做到什么，还是大模型做不到什么——都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例（Corner Case），不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’，还是之前的‘strawberry有几个r’，这些边界案例的发现，有助于我们增加对大模型能力边界的了解。”

月之暗面也进一步表示，但要彻底解决问题，又不能仅仅依赖于逐一修复每个案例，原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的，我们更加要做的是不断增强底层基础模型的智能水平，让大模型变得更加强大和全面，能够在各种复杂和极端情况下依然表现出色。

360创始人周鸿祎在其个人账号发布视频评论此事。他解释称，“大模型的全称叫大语言模型，首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成数字来看，而是把它们分成了两个token。没有经过专门特别的提示和训练，大模型不懂数学，而是按照一个文字的逻辑来进行对比。”

对于解决这类数学问题，周鸿祎给出了三个解决方案，其一是对大模型进行专门的数学训练，二是通过搜索，与已有的答案进行匹配，三是调用外部函数或者程序来计算。