![](http://n.sinaimg.cn/spider20240728/742/w1080h462/20240728/6d5d-959dd59a0cb828ce9d88ed391bf65166.jpg)
SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。
![](http://n.sinaimg.cn/spider20240728/437/w1080h157/20240728/b498-772354fcef9f236239a8ea4eb0c08fc0.png)
当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。
![](http://n.sinaimg.cn/spider20240728/143/w1079h664/20240728/acea-gif8c6a1dba95c39c2e8ce7fe9561ee1913.gif)
再来看移动版本的回答速度,回答延迟几乎为 0。
![](http://n.sinaimg.cn/spider20240728/590/w720h1470/20240728/aa6f-giffdf111a64d2cd7d677a75962f89a95ac.gif)
评论区下方,震惊体铺屏。
![](http://n.sinaimg.cn/spider20240728/389/w1080h109/20240728/22b6-acf1992f0262677c0a056b8bf4514bb0.png)
但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,SearchGPT 竟弄错时间,出现了幻觉。
说好的,要取代谷歌呢?
全网一手实测来了
Kesku 自己测试的另一个 demo,呈现了 SearchGPT 的小部件。她发现的一个现象是,SearchGPT 倾向于强烈关注搜索结果。「有时就需要明确告诉它,自己想要做什么,而不是想从网上得到什么」。
![](http://n.sinaimg.cn/spider20240728/582/w1080h302/20240728/6970-0cdc43750040e0fc7c9ef577076bd5a9.png)
比如询问它伦敦天气,SearchGPT 先给出了未来七天的天气预报。
![](http://n.sinaimg.cn/spider20240728/155/w1080h675/20240728/19a4-gifb8b4012bcf3ed9bb7ee3f7f7732a2049.gif)
在伦敦野餐的最佳时间和地点有什么,类似小部件的形式给出了几个备选项。
![](http://n.sinaimg.cn/spider20240728/155/w1080h675/20240728/0d60-gifc2601760096961dc05c77ef16a62dc85.gif)
Kesku 还在移动端测试了一些例子。
![](http://n.sinaimg.cn/spider20240728/436/w1080h156/20240728/5afb-0d24b3a9f41f865cbc6c6657e0aaa521.png)
查询英伟达股票,会给出英伟达股票整体的可视化图,随后给出了一些分析。所有股票信息都被无缝集成在页面中。
![](http://n.sinaimg.cn/spider20240728/176/w576h1200/20240728/ddd9-d693f3483db37b0e3f01d4a4f4950868.png)
输入一首歌名「Never Gonna Give You Up」,然后直接给出了 YouTube 歌曲视频,不用跳转到其他网页,在一个页面就可以听歌、看视频。
![](http://n.sinaimg.cn/spider20240728/741/w641h900/20240728/704c-7980f7b02403b0244ee0477ed0ad2dc7.png)
除了搜索功能,网友还乐此不疲地进行「人性化测试」——「你怎么样」?
「作为一个 AI 语言模型,我没有感情,但我在这里并随时准备帮助你解答问题。今天我能为你提供什么帮助」?
![](http://n.sinaimg.cn/spider20240728/274/w1080h794/20240728/370f-7fbb37fdd0f2b50a8cb808cf57562e20.png)
「给我讲一个笑话」
一个英语世界的经典双关梗就此出现 ——「科学家不信任原子。为什么科学家不信任原子?因为它们构成了一切!」
![](http://n.sinaimg.cn/spider20240728/430/w1080h950/20240728/e6c9-acbbec661475df1a1d65931c14ab234e.png)
网友现场出题
眼馋的网友们,纷纷在评论区出题,让帖主帮忙测试。
第一位网友问道,「它支持地区和新闻吗,比如来自 TestingCatlog 的最新新闻」。
![](http://n.sinaimg.cn/spider20240728/697/w1080h417/20240728/3485-064c783d450fbe460883450ac725e672.png)
Kesku 测试后表示,「它可以通过 IP 地址或精确位置为你提供本地信息(后者默认是关闭的,可以在设置中选择开启)—— 比如『我附近的电影院』这样的查询效果很好」。
![](http://n.sinaimg.cn/spider20240728/548/w1080h1868/20240728/3d09-ba800d3df6b1726a3b70ed190e89cd88.png)
「帮忙试一下其智能体搜索的解释能力」。
![](http://n.sinaimg.cn/spider20240728/757/w1080h1277/20240728/3741-d8a3bc6ef4b2c6310f35e8ab6b474ba3.png)
SearchGPT 在给出关于高带宽存储器的解释中,蓝色标出的内容,是参考解释。
![](http://n.sinaimg.cn/spider20240728/431/w783h2048/20240728/5b55-ef6d8f982b77a3e19775d105fd6b47b9.png)
![](http://n.sinaimg.cn/spider20240728/239/w639h1200/20240728/e653-4637357d3c2dd9de37728ea201224897.png)
你能尝试搜索一些付费墙后面的文章吗?那些最近与 OpenAI 签署了合作伙伴关系的文章。
![](http://n.sinaimg.cn/spider20240728/412/w1080h132/20240728/4080-78fd4ecf5f316fda00cd0935ff5b954e.png)
Kesku 给出了一篇文章的内容,不过貌似还是不能越过付费内容,仅是给出了文章的总结。
更细节的内容,依旧无法看到。
![](http://n.sinaimg.cn/spider20240728/8/w1080h528/20240728/ed7f-c3a9125fec0d91ef43ecf1b6f13c7b05.png)
你能尝试搜索「Yandex 月活跃用户数」吗?
我想看看,当它找不到我想要的确切答案时,它是否会承认自己找到了日活跃用户数(DAU),而不是月活跃用户数(MAU),还是会像 copilot 那样装糊涂,只是复制粘贴整个搜索结果而忽视实际查询。
![](http://n.sinaimg.cn/spider20240728/556/w1080h276/20240728/1a4f-0474304d0a8f15730fe10a48f1a887da.png)
Kesku 搜索后的结果如下所示:显然,根据提问者问题,SearchGPT 给出了回答。
![](http://n.sinaimg.cn/spider20240728/697/w1080h1217/20240728/0fb1-9433e2685e6b60ff019d05c1b9f5f359.png)
「与 Perplexity 相比如何」?
Kesku 称暂时还未测试复杂的任务,不过非常喜欢目前测出的结果。
![](http://n.sinaimg.cn/spider20240728/544/w990h354/20240728/9c6a-c2a73f3faa41668dad5d5a791f0c5308.png)
在下面提示中,她直接问道「谁是 Kesku」这么小众的问题。没想到,SearchGPT 给出了正确的解答,Perplexity 却回答错误了。
![](http://n.sinaimg.cn/spider20240728/686/w900h586/20240728/31c4-da315abec3fe5f22a478b29067cbc6d4.png)
![](http://n.sinaimg.cn/spider20240728/691/w900h591/20240728/1d7e-9f6ec4b612f76d3d882e7766e107e6fa.png)
有网友对此评价道,「很酷的演示!也许 SearchGPT 能在本地搜索领域带来一些变革?它能帮助你在现实世界中完成事情。从外观来看,它有很好的数据源、简洁的小部件,而且速度超快。不知道与谷歌相比,他们能把每次查询的成本降低到多少」?
![](http://n.sinaimg.cn/spider20240728/632/w1080h352/20240728/60eb-da2b6591daad4886ce7e0870de90d9b6.png)
揭秘 SearchGPT 搜索机制
科技媒体 TestingCatolog 也率先进行了内测,并揭开了 SearchGPT 搜索机制的一角。
![](http://n.sinaimg.cn/spider20240728/611/w1080h331/20240728/2dd1-32dd86325dca8ec4b727649119193726.png)
与当前 ChatGPT 提供的通用 Bing 搜索功能不同,SearchGPT 更擅长提供实时信息。
虽然仍旧依赖 Bing 的索引,但 SearchGPT 将会有自己的网络爬虫(类似 Perplexity),用于动态获取实时数据,从而克服 Bing 速度较慢的问题。
甚至,TestingCatalog 还挖出了 SearchGPT 的源代码,并在评论区信誓旦旦地表示「绝对准确,我有内部人士。」
![](http://n.sinaimg.cn/spider20240728/180/w1080h700/20240728/4717-241f3d41dd279d166703915008cc77cc.png)
源代码不仅露出了 Bing 的接口,而且可以发现,搜索结果由多模态模型提供支持。虽然看不出其中具体的处理流程,但调用的模型应该具有自动理解图像的功能。
![](http://n.sinaimg.cn/spider20240728/222/w1080h742/20240728/7a9f-fbaa4d7a970cb77963049aaf3bf237a1.png)
官方演示大翻车,OpenAI 惨遭打脸
就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水 ——SearchGPT 在官方 demo 中有明显的搜索结果错误。
用户给出的搜索问题是「8 月在北卡罗来纳 Boone 举办的音乐节」。
![](http://n.sinaimg.cn/spider20240728/666/w1080h386/20240728/eb79-eaac05422b7e491cc93ed9003b869dbd.png)
这个问题其实很难体现 SearchGPT 相对于传统搜索引擎的优势。同样的问题如果抛给谷歌搜索,也能给出相差无几的结果。
比如 SearchGPT 放在首行的「阿巴拉契亚夏季节」(An Appalachian Summer Festival),也同样是谷歌搜索的第二位结果。
![](http://n.sinaimg.cn/spider20240728/488/w1080h1008/20240728/56b3-4ec783bccdc666863950b844dfdbb742.png)
但尴尬的是,标题下方的 AI 摘要把一个关键信息弄错了 —— 经主办方确认,音乐节举办日期为 6 月 29 日~7 月 27 日。
如果你按照 SearchGPT 给出的信息去买票,将一无所获 ——7 月 29 日~8 月 16 日恰好是售票处正式关闭的时段。
![](http://n.sinaimg.cn/spider20240728/26/w1080h546/20240728/794f-f729bf734d2775ffbfe5ac00efa6a08e.png)
OpenAI 发言人 Kayla Wood 已经向《大西洋月刊》承认了这个错误,并表示「这仅是初始的原型,我们将不断改进。」
这个错误让人不禁想起 Bard 曾经造成的惨剧。
2023 年 2 月,谷歌推出了这个聊天机器人产品以对抗 ChatGPT,但首次亮相就出现了事实性错误,导致 Alphabet 股价当天暴跌 9%,市值瞬间蒸发 1000 亿美元。
![](http://n.sinaimg.cn/spider20240728/86/w1080h606/20240728/65ca-461bd5edd0acb9cd3dc0c26591e79054.png)
Bard 称 James Webb 太空望远镜拍摄了系外行星的第一张照片,但实际上这个功绩属于欧洲南部天文台的 VLT
但好在,OpenAI 没有股价可跌,而且仅开放内测的做法也是相当谨慎。毕竟有谷歌的前车之鉴,可以预料到,LLM 这种错误几乎是无法避免的。
即使 OpenAI 能够找到方法大幅减少 SearchGPT 的幻觉,但面对庞大的访问量也是「杯水车薪」。
![](http://n.sinaimg.cn/spider20240728/200/w1080h720/20240728/02cd-275b865dead0b13d9616fc3d87a16200.jpg)
假设幻觉率仅为 1%(这个比率很难达到),按照谷歌的规模,也会导致每天产生数千万个错误答案。
更何况,我们目前还没有发现足够可靠且有效的方法,来消除 LLM 的废话和幻觉。
而且,Andrej Karpathy 大佬曾经在推特上表达过这样的观点:「幻觉并不是 bug,而是 LLM 最大的特点。」
![](http://n.sinaimg.cn/spider20240728/24/w1080h544/20240728/1ddb-1a415b7a49dbdce3fc7d6320deb34f85.png)
Karpathy 将 LLM 比喻为「梦想机器」:我们用 prompt 引导模型「做梦」,再加上对训练文档的模糊记忆,就得到了生成结果。
虽然大多数时候生成结果是有用的,但既然是「梦境」就有可能失控。当 LLM 做梦进入有事实错误的领域时,我们就会给它贴上「幻觉」的标签。
这看起来是个 bug,但 LLM 只是做了它一直在做的事情。
这种机制和传统的搜索引擎完全不同。后者接收提示后仅仅是逐字返回数据库中最相似的文档,因此你可以说它有「创造性问题」,因为搜索引擎永远不可能创造新的回应。
根据 Karpathy 的说法,我们就很难指望由当前 LLM 驱动的 AI 搜索能生成 100% 真实准确的结果。
那么这场搜索引擎的变革会怎样展开?LLM 的「梦境创意」和传统搜索引擎的真实可靠,究竟是共存下去,还是会「你死我亡」?
![](http://n.sinaimg.cn/spider20240728/425/w700h525/20240728/71db-1b8f712f59717551f94096dced808432.png)
参考资料:
https://x.com/ai_for_success/status/1817199693275050018
https://www.theatlantic.com/technology/archive/2024/07/searchgpt-openai-error/679248/
https://x.com/testingcatalog/status/1816778176141336757
https://www.testingcatalog.com/early-access-to-searchgpt-openais-ai-powered-search-feature/
本文来自微信公众号:微信公众号(ID:null),作者:新智元
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)