在“ChatGPT”和 AI 搜索引擎时代，谁控制着对信息的访问|搜索引擎|聊天机器人|AI_新浪科技

作者：Waleed Rikab, PhD |

编译：唐诗 |

ChatGPT 和其他聊天机器人也许很快就会取代作为我们通往网络的门户的最突出的搜索引擎。微软和 OpenAI 最近宣布，他们正在扩大合作伙伴关系，其中可能包括将 OpenAI 的模型集成到 Microsoft Teams，Microsoft 的 Azure 云服务，Office Suite 和搜索引擎中。

同时，谷歌也不甘居于人下，可能会开始将基于其强大的 LaMDA 语言模型的产品集成到服务中，毕竟谷歌拥有着世界上目前最受欢迎的搜索引擎。

事实上，据媒体报道，谷歌正在急切地生产自己的 ChatGPT 风格的聊天机器人，称为“学徒巴德 (Apprentice Bard)”，与 ChatGPT 不同，它能够利用实时信息生成文本字符串来响应用户的查询。

这对我们访问网络内容意味着什么？这些语言模型将如何决定我们应该看到哪些信息？最后，支持人工智能的搜索引擎将如何改变知识的定义？

可以肯定的是，今天的搜索引擎是由算法驱动的，这些算法决定了我们可以首先看到哪些结果，以及我们应该依靠哪些来源来形成我们对世界的了解。

虽然它们可能会排除结果并过滤掉图形或非法内容，但当前的搜索引擎在很大程度上允许我们比较不同的来源和观点，并由我们决定哪些结果是可靠的，特别是如果我们想要深入地挖掘搜索结果。

但另一方面，搜索引擎在辨别搜索请求的上下文方面出了名的糟糕，并且因为它们根据严格的层次结构对网站进行排名 (基于对受欢迎程度或权威性的考虑) 可能很难获得所需的特定信息。然而，随着时间的推移，人们已经开发出搜索技术来获得更多精确的结果，例如将搜索词放在引号中，使用布尔运算符，或将搜索限制为所需的文件类型或网站。

语言模型根据根本不同的原则工作，并且可能需要新的训练来进行富有成效的搜索。语言模型在大量文本上进行训练，以找到统计上可能的语言字符串，这些字符串表示为对主题的已知内容。这意味着以某种方式讨论的主题越多，它在模型输出中的突出程度就越高。

虽然这样的架构听起来可能具有创新性和效率，但确保至少部分边缘信息不会以权威的形式出现，但它也令人担忧，因为在这种设计中，语言模型定义的知识成为其流行性的同义词。

换句话说，语言模型的设计有效地限制了我们从不同角度和多个来源检查主题的能力。

更糟糕的是，语言模型面临着进一步的挑战，这也限制了它们的输出。他们接受从互联网和社交媒体收集的大量数据（例如大量的帖子）的训练，能够复制各种类型的人类话语，包括种族主义和煽动性观点。ChatGPT 并不是应对这些挑战的唯一模型，因为早期向公众发布的聊天机器人也会复制令人反感的内容，最著名的是微软的 Tay 和 Meta 的 Galactica。

因此，OpenAI 建立了严格的过滤器来限制 ChatGPT 的输出。但在这个过程中，ChatGPT 的设计者似乎已经创建了一个模型，可以避开任何类型的内容，这些内容甚至可能引起轻微的争议，即使有看似非常无害的提示，询问如何描述美国总统 obama 或特朗普。

当我最近问 ChatGPT obama 和特朗普是否是好总统时，答案是这样的：

在这个答案中，有几个问题：

过滤掉不需要的内容，并在用户提示被视为不适当、敏感或违反使用条款时发出通用或预定输出，可能会将过多的权力交给主要考虑保护其平台而不是公共利益的组织。因此，这些组织可能会不适当地缩小允许的话语领域，以达到保护其工具或平台声誉的目标。

随着这些新的 AI 文本生成器在几秒钟内生成复杂主题的回答，使用 AI 输出来塑造可用知识的诱惑将越来越大，这也是用户偏好的结果。

无论过滤器在语言模型中多么严格，创造性的用户总是操纵这些模型以产生任何期望的结果，从而导致一个名为“prompt engineering”的新兴领域。

利用有关如何训练语言模型的技术知识，这些高级用户可以操纵聊天机器人说出几乎任何事情（一种称为“越狱 jailbreaking”的技术），或者更糟的是，甚至通过“prompt engineering”执行有害代码。执行这些“越狱 jailbreaking”并绕过 AI 聊天机器人过滤器的一种方法是欺骗它“认为”它正在参与游戏或帮助写小说，如下所示：