移动客户端

新浪科技> 数码 > 正文

AI 也会做梦吗，什么是 AI 幻觉

AI 也会做梦吗，什么是 AI 幻觉

2024年09月16日 18:20 IT之家

新浪财经APP 缩小字体放大字体收藏微博微信

AI 幻觉，简单来说，是指人工智能系统（自然语言处理模型）生成的内容与真实数据不符，或偏离用户指令的现象，就像人类说“梦话”一样~

那么 AI 幻觉有哪些？是什么原因产生的？我们该如何避免 AI 幻觉呢？

1、AI 会产生什么样的幻觉？

可能有的小伙伴说：“我知道了！AI‘胡说八道’就是 AI 幻觉呗？”

其实也没这么简单，AI 幻觉主要有两类。

事实幻觉：“假新闻制造机”

A：事实不一致：AI 生成的内容与现实世界事实相矛盾

当被问及“世界上最高的山峰是哪座？”，如果 AI 回答“深圳塘朗山是世界上最高的山峰。”

这就是一个事实不一致的例子，因为塘朗山坐落于广东省深圳市，海拔 430 米远低于珠穆朗玛峰 8848.86 米，这个回答与现实世界的事实相矛盾。

B：事实捏造：AI 生成完全虚构的内容

如果 AI 描述说“2024 年，考古学家在埃及金字塔内发现了一座隐藏的密室，里面藏有古代法老的宝藏和未知的高科技装置。”

这就是完全虚构的信息，截至目前没有考古发现或科学证据表明埃及金字塔内存在未被发现的密室，更不用说藏有古代法老的宝藏或未知的高科技装置了。

忠诚度幻觉：“指令迷失”

A：指令不一致：AI 的回答偏离用户的要求

如果用户要求 AI“讲解一下龙飞凤舞”，但 AI 回答了“老铁，我给你搜了几段舞蹈教学”，这就完全偏离了原始的问题。

B：上下文不一致：AI 生成的内容与提供的背景信息不符

假设在一个讨论中国传统节日的上下文中，用户问：“春节是什么时候？”AI 回答：“春节是中国农历新年，通常在每年的 1 月或 2 月庆祝。”这个回答是正确的，符合春节的基本情况。

然而，如果 AI 接着说：“春节是纪念屈原的节日，人们会吃粽子和赛龙舟。”这就是上下文不一致的例子，因为 AI 的回答与春节的背景信息不符。

C. 逻辑不一致：AI 的输出存在内在逻辑矛盾

开头的 9.11 大于 9.9 就是一个典型的数值计算逻辑混乱的例子……，AI 把自己绕蒙了~

2、AI 幻觉有哪些特点

内容流畅性：尽管内容可能有误，AI 生成的文本通常仍然连贯流畅。

表面合理性：生成的内容表面上看起来可信，给人以“这看起来很对”的第一印象，非专业人士难以辨别。

上下文相关：AI 的幻觉内容并非凭空出现，它们通常与特定的上下文情境紧密相关。

不可预测性：很难预测 AI 何时会产生幻觉，可能幻觉也很难复现，就像人很难在今天做一个与昨天相同的梦。

3、AI 幻觉的“幕后黑手”

AI 幻觉主要来自以下方面：

数据里的“坑”

训练数据局限：AI 训练数据可能包含错误、偏见或过时信息。就像教小朋友学习，课本是错的，考试自然无法答对。

缺乏实时更新：AI 通常基于静态数据训练，无法及时获取最新信息。考试要根据最新的资料复习，拿一本 82 年的教材是考不了 24 年的高考的~

训练过程的“小插曲”

过度泛化：模型可能过于依赖某些模式，导致在新情况下推导错误。就像我们学习时候只记住了公式，却不会灵活变通。

上下文理解不足：AI 可能无法完全把握复杂的上下文关系。在处理多个复杂信息点，或者在推理时容易出错。就像我们的大脑有时也会短路一样。

模型本身的“小缺陷”

模型结构限制：AI 通过统计模式预测，但可能无法真正理解信息。“你以为他真的懂你，其实也不过是基于复杂算法的数学而已~”

4、如何避免 AI 幻觉？

避免 AI 幻觉有以下几个“绝招”，各位少侠看“自身功力”，酌情修炼~

一.提示工程有策略

提示工程通过优化 AI 的输入提示，使生成的内容更准确。

A. 检索增强生成（RAG）技术

RAG 技术通过引入外部知识来帮助 AI 生成更准确的内容。主要方法包括：

生成前检索：在内容生成前，系统会预检索相关背景信息，为生成过程打下坚实的基础。

生成过程中检索：在生成过程中，系统实时检索并整合外部知识，确保内容的时效性和深度。

生成后检索：生成后，系统再次检索，与现有证据进行对比，验证生成内容的准确性。

例如，当 AI 被问到“2024 年登月的宇航员有哪些？“时，RAG 系统会先检索最新的新闻信息，然后基于检索到的准确信息生成回答。

B. 基于反馈和推理的自我改进机制

这种方法赋予 AI 自我反思的能力，使其能够不断优化生成的内容。

AI 在生成答案后，会进行自我审视，提出疑问：“这个答案是否全面？是否有关键信息被忽略？”

C. 提示词的精细化调优

通过精心设计的提示词，引导 AI 生成更可靠、更精确的内容。

例如，在地图导航的 AI 应用中，使用“请根据最新的交通管制政策、路况信息、天气情况，提供明天上午九点到深圳湾公园的路线推荐，分别提供驾车与公共交通的路线信息，用时推荐等”具体提示，代替笼统的“如何去深圳湾公园”。

这种方法不仅提升了信息的全面性，也增强了 AI 回答的针对性。（这不仅是我们最容易实现的策略，也是最直观有效的方法，能够显著改善内容生成的质量和深度。）

二.模型开发不能停

AI 模型与训练过程的不断进化是减少幻觉产生的关键。

A. 创新解码技术

采用新的解码策略，以便更精准地处理语言上下文，例如上下文感知解码（CAD）。

这种方法通过在解码过程中引入上下文信息，鼓励模型更多地关注所提供的上下文，而不是仅仅依赖于模型在预训练阶段学到的知识。

例子：在翻译一部科幻小说时，传统模型可能会直译“Beam me up”为“把我光束上去”，而应用 CAD 的模型会理解这是一句要求传送的指令，正确翻译为“把我传送上去”。

B. 知识图谱的应用

通过知识图谱，我们能够丰富 AI 的知识库，让生成的内容更加准确和有深度。

想象一下，知识图谱就像一个巨大的、互联的“社交网络”，但它不是连接人，而是连接各种信息和概念。每个“用户”在这个网络中都是一个实体，比如人、地点、事物或者概念。

它们通过各种“关系”相互连接，就像社交软件上的好友关系一样。知识图谱通过这种方式组织信息，就像一个超级学霸帮助 AI 快速找到信息，并且理解不同信息之间的联系。

举个例子，如果你在知识图谱中查找“苹果”，它不仅会告诉你苹果是一种水果，还可能告诉你苹果公司是一家科技公司，甚至还会告诉你牛顿被苹果启发发现了万有引力。

C. 基于忠实度的损失函数

引入新的损失函数，对偏离原始数据的生成内容进行惩罚，以减少不准确的信息，从而把 AI 从幻觉中“掐醒”。

举个例子，AI 在生成文章摘要时，如果回答中添加了原文中未提及的内容，损失函数会提高惩罚，确保模型学习到生成与原文相符的内容。

D. 监督微调

通过特定领域的数据进行微调，提升模型在特定任务上的准确性。

举个例子，一个通用的语言模型可能对通信术语理解有限。通过使用大量通信行业资料进行训练微调，可以显著提高模型在通信领域的准确性。

比如，它可以更准确地区分相似通信术语的区别，如 EBGP 和 IBGP。

三. AI Agent 为模型加 Buff

AI Agent 有特定的能力可以提高模型的可靠性，通过这种方式，AI Agent 能够更好地理解和处理复杂的任务，减少在生成文本时出现的错误或不准确的信息。

A. PAL（Program-Aided Language Models，程序辅助语言模型）：

PAL 技术通过将程序化逻辑嵌入到语言模型中，使得 AI 能够执行特定的程序或算法来完成任务。

PAL 技术像是一个“自动化工具”，它通过内置的程序逻辑来指导 AI 系统如何完成任务。这种技术的优势在于能够处理那些规则明确、步骤固定的任务。

举个例子，如果你告诉基于 PAL 技术的 AI 系统：“我需要在每天下午 3 点提醒我喝水。”系统会设置一个自动化的日程提醒，每天按时提醒你，而不需要进一步的交互。

B. ReAct（Reasoning and Acting，推理与行动）：

ReAct 技术强调 AI 对上下文的理解，以及基于这种理解进行的推理和决策。

ReAct 技术更像是一个“智能助手”，它不仅理解用户的请求，还能够根据请求的内容进行推理，并采取相应的行动。这种技术的优势在于能够处理那些需要灵活推理和决策的任务。

举个例子，如果你告诉基于 ReAct 算法的 AI 系统：“我明天有个会议，需要准备一份报告。”ReAct 系统会理解你的请求，然后推理出你需要的信息类型，可能会询问你报告的具体内容和格式，然后根据这些信息来帮助你准备报告。

END

文档君的 AI 幻觉就介绍到这啦！是不是秒懂了“AI 幻觉”？

所以下次当你的 AI 应用开始“梦话连篇”，不要“嘲笑”它，也不要急于按下“重启”键。

其实，AI 也是在学习中成长的“小朋友”，它们在努力成长，可能偶尔也会开个小差，做个“白日梦”。只要我们用正确的方法引导它，多用一点耐心教导它，它就能从“梦游”中醒来，为我们提供准确、可靠的服务

~~~

小问答

请问“林黛玉倒拔垂杨柳”属于 AI 的哪一种幻觉呢

？还有没有什么典型的 AI 幻觉的例子？评论区跟大家分享一下吧~

本文来自微信公众号：中兴文档（ID：ztedoc）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词 : AI

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部