为什么AI会一本正经地“胡说八道”|AI_新浪财经

转自：团结报

　　□薛蒙蒙

　　如果你问一个路人“预算0元如何在北京旅游3天”，他可能会翻你一个白眼。但是如果你问AI同样的问题，你可能会收获900字以上的详细攻略，附带一句温馨提示：露宿街头时请确认合法性。

　　相信不少人已经遇到过这种情况：让AI写论文，发现不少参考文献是完全杜撰的；请AI提供购房策略，煞有介事地一顿分析后，发现楼盘是不存在的；让AI整理材料，发现完美的数据来源于混乱的逻辑……问AI一个问题，它给了你一个特别详细、丰富且看上去有逻辑的答案，但当我们去核实时，却发现这些信息完全是虚构的。

　　AI煞有介事地编造看似合理实则虚假的内容，这种现象被研究者们称为“AI幻觉”（AI Hallucinations）。AI在生成幻觉时不仅虚构信息或者误解语境，还会以相当自信且确定的语气展示内容，所以往往更难判断和防范。

　　造成“AI幻觉”的成因很多。

　　首先，这源于生成式AI先天缺陷。今天的生成式AI更像是一个沉浸在语料库海洋中学习说话的学习者，它不是在查找答案，而是在预测，下一个要说的最合理的词应该是什么。这类模型通过分析海量文本数据学习语言规律，本质上是在捕捉词汇、句式之间的统计关联，而非建立对现实世界的真实理解。

　　简而言之，从内部结构到训练过程，AI都没有“理解词义”这一步。它基于训练数据中观察到的语言模式生成答案，它不理解问题，也不区分信息真假，只是按统计规律给出看似合理的输出，因此也有研究者用“随机鹦鹉”形容大语言模型的这一特性。

　　其次，错误和老旧的“课本”也会生产“幻觉”。由于训练数据中可能混杂错误信息、过时知识或虚构内容，模型在生成文本时会无差别地模仿这些模式，尤其当遇到数据覆盖不足的领域或模糊问题时，更容易依赖概率拼接出看似合理但偏离事实的表述。

　　人工智能的“强迫症”也会加重“病情”。AI的设计目标更侧重于语言流畅度，模型总是默认追求生成“流畅自然”的文本，而非严格验证事实，这在代码的底层就刻上了“满分回答”的DNA标签。加之缺乏对物理世界、时间变化和因果关系的深层认知，使得AI在应对复杂推理或开放性问题时，可能将不同语境下的碎片信息错误关联，最终形成符合语言规则却脱离现实逻辑的“幻觉”输出。

　　我们该如何避免AI的“幻觉”呢？

　　想要获得准确答案，提问方式很关键。与AI交流也需要明确和具体，避免模糊或开放性的问题，提问越具体、清晰，AI的回答越准确。

　　而AI自己是这样回答这个问题的：

　　首先在提问时尽量明确具体，避免模糊或含混的表述，例如补充时间、领域等限定条件；其次对AI生成的关键信息（如数据、历史事件或学术结论）主动通过权威渠道交叉验证，尤其在涉及健康、法律等专业领域时；同时可借助“检索增强”工具（如联网搜索插件）将AI的生成能力与实时数据库结合，降低虚构风险；此外需理解AI并非全知，对于逻辑跳跃或缺乏可靠来源的“绝对化陈述”保持警惕，必要时要求模型标注信息的不确定性。

　　AI的“幻觉”不是技术故障，而是当前发展阶段不可避免的特性。正如人类学会使用计算器时要警惕按错数字，我们使用AI时也需要建立新的“数字素养”——在享受技术红利的同时，永远保持清醒的思考。

　　“本质上，将AI视为辅助工具而非权威来源，结合人类判断力，才能更安全地利用其创造力。”也许，AI的这句话正是我们和它相处的正确态度。