什么是AI数据污染?

什么是AI数据污染?
2025年08月24日 08:55 滚动播报

(来源:新安晚报)

转自:新安晚报

  近年来,不少网民发现,部分人工智能的回答开始有些不靠谱,AI杜撰的信息更是数不胜数,杜撰不存在的论文以及论文的作者、网址等。AI更是成了谣言类信息的帮凶,游船侧翻、幼儿园大火等谣言都可以帮网民编造出来。

  人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。一旦数据受到污染,就可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。

  近日,国家安全部门发布提示,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。

  那么究竟什么是AI数据污染,数据污染分为哪几类?

  网络安全专家曹辉介绍:数据投毒主要针对两个方面,一个是针对视觉类,一个是针对自然语言处理类。例如图片是一个斑马识别人工智能系统的训练数据,照片上很多斑马进行了标注。如何进行数据污染?就是在其中的一匹斑马身上加一个绿点。加了绿点的斑马,特意不进行标注。这样的训练数据大概会有几万张,在这几万张训练数据里面的其中三四张进行类似的污染处理,就会导致生成的人工智能模型带有后门,就会导致当它再见到类似身体上有绿点的斑马,它就不会认为这是个斑马,就导致了AI模型的判断受到干扰。

  专家介绍,人工智能数据污染分为两类:一种是人为主观恶意去篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量的收集网络的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。

  国家安全部数据显示,AI在训练过程中,即使是0.001%的虚假文本被采用,其有害输出也会相应上升7.2%。

  为何小小的污染源输出时的危害会几何级数的上升呢?专家介绍,被污染的数据有着明显地与其他数据不同的观点和内容,这种情况下,AI很可能将污染数据标记为“有特点和高信息量”,并增加在算力中使用的比例。据央视

海量资讯、精准解读,尽在新浪财经APP
污染 AI 人工智能

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 09-01 艾芬达 301575 --
  • 08-26 三协电机 920100 8.83
  • 08-25 华新精科 603370 18.6
  • 08-19 巴兰仕 920112 15.78
  • 08-13 能之光 920056 7.21
  • 新浪首页 语音播报 相关新闻 返回顶部