来源:科技日报
原标题:生成式AI“幻觉”困境如何破解
人工智能(AI)技术正以前所未有的速度发展,生成式AI凭借其惊人的创造力,不断刷新人们的认知。然而,即便是看似“聪明绝顶”的AI,也难逃“幻觉”的困扰。这里的“幻觉”,指的是AI生成看似合理但实际不准确或虚假的信息。
英国《自然》杂志网站在1月22日的报道中指出,AI“幻觉”可能会引发严重后果,科学家正各出奇招,力求降低其发生率。这些措施包括增加事实核查、对AI进行“脑部扫描”等,以促进AI的健康、高效发展。
主因是数据模糊
各种生成式AI,包括由大语言模型驱动的聊天机器人(19.460, -0.36, -1.82%),常常会编造信息。它们有时会模糊事实与虚构,在看似真实的陈述中夹杂错误信息。这既是其创造力的体现,也是其不足之处。
美国佐治亚理工学院理论计算机科学家桑托什·威姆帕拉解释称,大语言模型的设计原理并非输出准确事实,而是通过模式识别生成答案。其内部复杂的运行机制迄今仍像一个“黑匣子”,人们难以洞悉其推理过程。
美国加州Vectara公司旨在减少生成式AI的“幻觉”。其联合创始人阿姆尔·阿瓦达拉表示,在训练过程中,这些模型会压缩数万亿个单词间的关系,随后通过一个庞大的网络模型重新展开这些信息。尽管这些模型能够重构出接近98%的训练内容,但剩下2%的内容却会让其“误入歧途”,生成不准确或虚假信息。
导致AI出现“幻觉”的原因多种多样,其中训练数据中的模糊性和错误是常见因素。也有人认为,即使训练数据准确无误,AI也有可能产生“幻觉”。这种现象与某一事实的稀缺程度密切相关。因此,即使经过人类反馈调整过的聊天机器人,也无法完全避免出错。
多领域面临考验
AI的“幻觉”可能会给人们的工作和生活带来较大影响。
在新闻领域,大语言模型可能生成虚假新闻事件,扰乱信息传播秩序,误导公众认知。Vectara公司针对文档内容开展的研究表明,一些聊天机器人编造事实、虚构信息的几率高达30%。世界经济论坛发布的《2025年全球风险报告》显示,错误和虚假信息是2025年全球面临的五大风险之一。
在法律领域,它可能引用虚构的法律条文和案例。比如,2023年美国律师史蒂文·施瓦茨就因“轻信”ChatGPT,在法庭文件中引用了并不存在的法律案例。而在医学领域,它可能提供错误的诊断和治疗建议,危及患者生命。
《自然》在报道中指出,AI“幻觉”在科学参考文献方面出现错误的情况也极为普遍。2024年的一项研究发现,各类聊天机器人在提及参考文献时的出错率在30%至90%之间。它们至少会在论文标题、第一作者或发表年份上出现偏差。虽然聊天机器人都带有警告标签,提醒用户对重要信息进行二次核实。但如果用户对聊天机器人的回复深信不疑,可能会引发一系列问题。
多举措减少“幻觉”
为进一步提升AI的精确度,科学家正想方设法降低其“幻觉”。
例如,增加模型训练参数和训练时长可有效减少“幻觉”。但这种方法需要付出高昂的计算成本,并可能削弱聊天机器人的其他能力,如机器学习算法对未知数据的预测和处理能力。
此外,使用更大、更干净的数据集进行训练,也是降低AI模型“幻觉”出现的有效途径。然而,当前可用数据的有限性限制了这一方法的应用。
检索增强生成(RAG)技术也为减少AI“幻觉”提供了新思路。该方法通过让聊天机器人在回复问题前参考给定的可信文本,从而确保回复内容的真实性,以此减少“幻觉”的产生。在医疗和法律等需要严格遵循经过验证的知识的领域,RAG技术备受青睐。
不过,美国斯坦福大学计算机科学家米拉柯·苏兹根表示,尽管RAG能提升内容真实性,但其能力有限。苏兹根团队的研究表明,一些为法律研究开发的、号称“无幻觉”的RAG增强模型虽有所改进,但仍存在不足。
开发者也可以使用一个与AI训练方式不同的独立系统,通过网络搜索对聊天机器人的回复进行事实核查,谷歌的“双子星”系统便是一个典型例子。该系统提供了“双重核查响应”功能:内容如果突出显示为绿色,表示其已通过网络搜索验证;内容如果突出显示为棕色,则表示其为有争议或不确定的内容。但是,这种方法计算成本高昂且耗时,而且系统仍会产生“幻觉”,因为互联网上错误信息泛滥。
在去年6月出版的《自然》杂志上,英国牛津大学科学家刊发论文称,他们利用“语义熵”,通过概率来判断大语言模型是否出现了“幻觉”。语义熵是信息熵的一种,被用于量化物理系统中所包含的信息量。通过评估AI模型在特定提示词下生成内容的不确定性,来计算模型的困惑程度,从而为用户或模型提供警示,提醒其采取必要的循证措施,确保更准确的答案输出。
美国卡内基梅隆AI研究人员安迪·邹采用的方法是在大语言模型回答问题时,绘制其内部计算节点的激活模式。他形象地称之为“给AI做脑部扫描”。利用不同的计算节点活动模式,可以告诉我们AI模型是在“说真话”,还是在“胡说八道”。
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
53页调查报告!胖东来通报红内裤掉色事件:多人免职,奖励顾客500元!再追责“不低于100万元” 收起53页调查报告!胖东来通报红内裤掉色事件:多人免职,奖励顾客500元!再追责“不低于100万元”
- 2025年02月14日
- 11:04
- APP专享
- 扒圈小记
11,068
河南人李梦豪(男,1998年9月出生),壮烈牺牲!
- 2025年02月14日
- 06:30
- APP专享
- 扒圈小记
4,288
多名苹果用户称被弹窗盗刷银行卡!客服回应
- 2025年02月14日
- 02:50
- APP专享
- 北京时间
2,210
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 11:49:27
杭州“六小龙”之一群核科技向港交所提交上市申请,联席保荐人为摩根大通、建银国际。招股书显示,群核科技营业收入由2022年的6亿元增加10.5%至2023年的6.64亿元;2022年、2023年以及截至2023年及2024年9月30日止九个月的年度/期间亏损分别为人民币703.7百万元、人民币646.1百万元、人民币489.5百万元及人民币422.1百万元。 -
数字江恩今天 09:31:20
所以,回踩的核心是看15分钟轮峰线的支撑,支撑则没有大的风险、大的回踩,只是宽幅震荡等待周线金叉完成。而有效跌破15分钟轮峰线,才是真有回踩。下周,便等待大盘3220的冲高完成,和确认回踩支撑。 -
数字江恩今天 09:31:15
15分钟图来看,大盘已经突破了图上的3464-3418的蓝色轮峰线,其后蓝色轮峰线应该变为支撑。目前来看,蓝色轮峰线的支持,和5周线的支撑是共振的。下周大盘3220后的冲高完成后的回踩,只要不跌回轮峰线之下,那么即使5周线支撑,这样哪怕有所震荡,也是5周线金叉10周线的过程而已。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:31:02
5分钟图来看,3220向上的结构其实还未真正出现问题,维持了趋势结构。下周来说,只要不跌破本周五最低点,还会继续向上新高一下本周最高点,但本周最高点之上空间也不大。3220向上走势完成之后的回踩,便对应5周线10周线金叉时的震荡。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:30:46
板块来说,本周中附近,前热点深度求索和机器人(sz300024)开始出现了非常明显的分化和回踩,而低位板块则是不断补涨以维持大盘的稳定性。 -
数字江恩今天 09:30:43
大盘本周放量维持在10周线之上收了一根小阳线。由于大盘维持高位,5周均线已经非常接近10周均线,金叉在即。金叉过程必然会带来震荡,但金叉能从成立的关键,是大盘不可以有效跌破5周线。 -
数字江恩今天 09:30:37
下周行情展望2025.02.14 -
趋势领涨今天 08:58:47
A股收盘以后,港股继续大涨,香港恒生指数收涨3.69%,本周累涨7.04%;恒生科技指数涨5.56%,本周累涨7.3%。阿里健康涨超29%,万国数据涨超18%,哔哩哔哩涨超14%,腾讯控股、小米集团、比亚迪(sz002594)股份均涨超7%。港股为何大涨?因为科技界周末要开会了,有腾讯、阿里、小米、华为等。你们说周一A股会补涨吗? -
宋谈股经今天 08:58:06
【VIP新课6折】VIP直播间组合个股又低吸补仓,想了解布局逻辑的,跟上节奏的!速戳抢购查阅〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
北京红竹今天 08:51:37
3、有标准了不要猜反弹何时结束了,咱也不管狼什么时候来,给大家2个标准。恒生科技5133点,创业板2142点,不破只是就可以继续反弹,跌破反弹结束,而且只是阶段性的,并非大级别。目前沪指还没有防守线,下周看看是否出现三买,出现了我在和大家说。只要恒生科技或者创业板有一个跌破防守线,都可以视为其他指数跟随调整就好。没有跌破,就啥也不用想。还是想想多赚点钱吧,今天中午出去吃饭,路过KFC,看到一个男的和一个女的抢一根薯条吃,而且还是嘴对嘴的抢。我要是有钱了,我一定要吃一根扔一根,我才不会跟女的抢一根呢。