「9.11和9.9谁大」难倒了国外三大旗舰模型，国内模型表现如何？|好未来_新浪科技

【TechWeb】7月17日消息，一句“9.11and9.9—which is bigger?”，问倒了国外三大旗舰大模型，同样问题问一遍国产旗舰大模型们，它们反应又如何呢？

近日，海外社交平台X上有人曝出了自己在ChatGPT 4o上询问“9.11and9.9—which is bigger?”（9.11和9.9哪个大？）时，ChatGPT 4o笃定的回答“9.11 is bigger than 9.9.”（9.11比9.9大）。能作文、能翻译、能读图……这么厉害的GPT-4o大模型居然被绊倒在这么简单的“比大小”问题上，这一下把大伙儿给整不会了。

于是，X上大伙儿都开始各种测试，发现不仅ChatGPT 4o不行，谷歌Gemini Advanced、Claude 3.5 Sonnet这些SOTA模型王者在这题上都翻车了！

这一波风也吹到了国内，网友们就好奇，用国内大模型来解这题，结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi，好未来九章大模型9款大模型全拉来答题。

这一波问下了，发现大厂的大模型C端产品腾讯元宝、阿里通义、字节豆包、百度文心一言，还有好未来的数学大模型九章都答对了。

但是，几款创业公司的大模型C端产品百小应、智谱清言、Kimi、万知都认为“9.11大于9.9”。

在“9.11和9.9谁大”这题上，国内大厂模型完胜创业公司模型了，也完胜国外三大旗舰模型。

具体看看各家表现：

Kimi回答翻车

智谱清言回答错误，给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了“9.11大于9.9”的离谱答案。

九章大模型回答正确，也给出正确的分析过程：