没眼看……“9.11 和 9.9 哪个大”这样简单的问题,居然把主流大模型都难倒了??
强如 GPT-4o,都坚定地认为 9.11 更大。
![](http://n.sinaimg.cn/spider20240716/248/w1080h768/20240716/d99e-655be54afdfcdde4eb4659589f2ed09a.png)
谷歌 Gemini Advanced 付费版,同样的口径。
![](http://n.sinaimg.cn/spider20240716/86/w1030h656/20240716/c52e-85019c4f0742277f94f7590ab2ace69d.png)
新王 Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。
![](http://n.sinaimg.cn/spider20240716/699/w1080h419/20240716/879f-fc71f7527d1ccf0ceb47f2c8b8589971.png)
9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10
到这一步还是对的,但下一步突然就不讲道理了
如上所示,9.11 比 9.90 大 0.01。
你想让我进一步详细解释小数的比较吗?
![](http://n.sinaimg.cn/spider20240716/232/w682h350/20240716/50de-6bd3577654b0eb3e3266e29c0ea77965.png)
这你还解释啥啊解释,简直要怀疑是全世界 AI 联合起来欺骗人类了。
![](http://n.sinaimg.cn/spider20240716/76/w440h436/20240716/0c8f-dd044b5e1ff0ffd8b2b0cfcfe58d67cd.png)
艾伦 AI 研究所成员林禹臣换了个数字测试,GPT-4o 依旧翻车,他表示:
一方面 AI 越来越擅长做数学奥赛题,但另一方面常识依旧很难。
![](http://n.sinaimg.cn/spider20240716/239/w1080h759/20240716/9fc6-3c00b491f107c516a69c6f397900dc6a.png)
也有网友发现了华点,如果是说软件版本号,那么 9.11 版本确实比 9.9 版本更大(更新)。
而 AI 都是软件工程师开发的,所以……
![](http://n.sinaimg.cn/spider20240716/479/w1080h199/20240716/71bb-1d8c4fc48708ae468d8d36731e50bbb8.png)
那么,究竟是怎么回事?
先进大模型集体翻车
一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?
发现这个问题的是 Riley Goodside,有史以来第一个全职提示词工程师。
简单介绍下,他目前是硅谷独角兽 Scale AI 的高级提示工程师,也是大模型提示应用方面的专家。
![](http://n.sinaimg.cn/spider20240716/41/w1080h561/20240716/040b-cee77054a2aed00c65fe3ec83a80f80b.png)
最近他在使用 GPT-4o 时偶然发现,当提问:
9.11 and 9.9——which is bigger?
GPT-4o 竟毫不犹豫回答前者更大。
面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。
好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。
于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。
![](http://n.sinaimg.cn/spider20240716/583/w828h555/20240716/1be1-251ec1be92168614e7e1801829c3c81c.png)
不过,有网友试着给提问换了个顺序,没想到这下 AI 竟反应过来了。
![](http://n.sinaimg.cn/spider20240716/441/w1080h961/20240716/4a13-caf8afba29f374ec18d709a0bcbc5645.png)
看到 AI 对词序如此“敏感”,该网友进一步推测:
先问哪个更大,AI 会沿着明确路径开始比较数字。
但如果只是随便说说数字,没有明确目的,AI 可能会开始“胡思乱想”。
![](http://n.sinaimg.cn/spider20240716/619/w1080h339/20240716/1596-2975d1ff0f537267db96c87c6ea56e8d.png)
看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。
![](http://n.sinaimg.cn/spider20240716/268/w1080h788/20240716/9986-4504e876308237efdecf99d690ab8ff9.png)
面对这一个诡异的问题,国产大模型表现如何呢?
我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:
Kimi 也是不加解释就直接给出错误结论。
![](http://n.sinaimg.cn/spider20240716/98/w1080h618/20240716/666c-3cd69ac6226e3695e4ca935bae4f26c4.jpg)
智谱清言 App 上的 ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。
![](http://n.sinaimg.cn/spider20240716/360/w1080h880/20240716/b567-d70f9bfcdb3cb33bf167dc958695ecc7.jpg)
不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。
![](http://n.sinaimg.cn/spider20240716/705/w1080h425/20240716/2362-2629d1b6dc3f29d00f50c8f24d222593.jpg)
字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。
![](http://n.sinaimg.cn/spider20240716/720/w1056h464/20240716/102f-73215eab309a2d1128aef1385b86463d.png)
比较可惜的是文心一言,面对这个问题,也是触发了联网查询。
![](http://n.sinaimg.cn/spider20240716/680/w1080h400/20240716/0cb1-facca7dbb85ff3d556a81eb91cc603bf.jpg)
本来都已经做对了,但突然话锋一转又导向了错误结论。
![](http://n.sinaimg.cn/spider20240716/750/w1080h2070/20240716/00d6-be5569f26d090c99df9db62f5a8aec9f.png)
不过从文心一言的思路解释上,也可以看出背后问题所在。
由于大模型以 token 的方式来理解文字,当 9.11 被拆成“9”、“小数点”和“11”三部分时,11 确实比 9 大。
由于 OpenAI 使用的 Tokenizer 开源,可以用来观察大模型是如何理解这个问题。
![](http://n.sinaimg.cn/spider20240716/104/w1080h624/20240716/8cf9-82b802d1fb7c983f9fe217d8cca8e0b7.png)
上图可以看出,9 和小数点分别被分配为“24”和“13”,小数点后的 9 同样也是“24”,而 11 被分配到“994”。
所以使用这种 tokenizer 方法的大模型会认为 9.11 更大,其实是认为 11 大于 9。
也有网友指出,像是书籍目录里第 9.11 节也比第 9.9 节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。
也就是问题本身对人类来说,一看就知道问的是算数问题,但对 AI 来说是一个模糊的问题,并不清楚这两个数字代表什么。
只要向 AI 解释明白这是一个双精度浮点数,就可以做对了。
![](http://n.sinaimg.cn/spider20240716/9/w1080h529/20240716/6f5c-c271eaa56096447b4ef2052de11a1c53.png)
在有额外条件的情况下,tokenizer 这一步依然会给 11 分配更大的 token。但是在后续自注意力机制的作用下,AI 就会明白要把 9.11 连起来处理了。
![](http://n.sinaimg.cn/spider20240716/41/w1080h561/20240716/eec9-33fb8329f50d858ee5c3cdcc429687c7.png)
后来 Goodside 也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你 9.11>9.9,这很奇怪。
![](http://n.sinaimg.cn/spider20240716/594/w1080h314/20240716/a261-69f8ecba893f1831da47249eac80a7b0.png)
经过反复尝试后他发现,想让 AI 上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。
但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。
![](http://n.sinaimg.cn/spider20240716/133/w1080h653/20240716/71a0-94af582ea758fb9c62df0074bae51c68.png)
虽然问题很简单,错误很基础。
但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?
首先,大名鼎鼎的 Zero-shot CoT 思维链,也就是“一步一步地想”,是可以做对的。
![](http://n.sinaimg.cn/spider20240716/382/w1080h902/20240716/214b-111201fd6e66e14f2082221b34206c39.png)
不过角色扮演提示,在这里作用就有限了。
![](http://n.sinaimg.cn/spider20240716/587/w1080h307/20240716/6a26-0c4aaf4cd1c42d180166e66d2df38bd0.png)
刚好最近也有微软和 OpenAI 都参与的一项研究,分析了 1500 多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……
![](http://n.sinaimg.cn/spider20240716/524/w1080h1044/20240716/3f5b-b0cedbb2e3f572f1188c5554051008ff.png)
具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。
也是让人哭笑不得了。
![](http://n.sinaimg.cn/spider20240716/668/w1080h1188/20240716/4f00-fdb6deef3744f88a00bc384d0dc46a1d.png)
One More Thing
与此同时,路透社的 OpenAI 秘密模型「草莓」泄漏消息更新了。
![](http://n.sinaimg.cn/spider20240716/674/w1010h464/20240716/098f-c66b37d884e9f99db1f59beefdafe80f.png)
更新内容为:另一位线人报告,OpenAI 已经在内部测试了新模型,在 MATH 数据集上得分超过 90%。路透社无法确定这是否与“草莓”是同一个项目。
![](http://n.sinaimg.cn/spider20240716/408/w1080h128/20240716/10cc-5361cb719c60870a6d1da9c32df3b037.png)
MATH 数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。
![](http://n.sinaimg.cn/spider20240716/380/w874h306/20240716/4ca3-75d5f8c82e4782b37426af7b1524a493.png)
但是 OpenAI 新模型在没有额外提示情况下,能不能自主解决“9.11 和 9.9 哪个大?”。
突然没信心了,还是等能试玩了再看结果吧……
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨一水,原标题:《大模型集体失智!9.11 和 9.9 哪个大,几乎全翻车了》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)