什么是AI数据污染？|污染_新浪财经

（来源：新安晚报）

转自：新安晚报

　　近年来，不少网民发现，部分人工智能的回答开始有些不靠谱，AI杜撰的信息更是数不胜数，杜撰不存在的论文以及论文的作者、网址等。AI更是成了谣言类信息的帮凶，游船侧翻、幼儿园大火等谣言都可以帮网民编造出来。

　　人工智能的三大核心要素是算法、算力和数据，其中数据是训练AI模型的基础要素，也是AI应用的核心资源。一旦数据受到污染，就可能导致模型决策失误甚至AI系统失效，存在一定的安全隐患。

　　近日，国家安全部门发布提示，通过篡改、虚构和重复等“数据投毒”行为产生的污染数据，将干扰模型在训练阶段的参数调整，降低其准确性，甚至诱发有害输出。

　　那么究竟什么是AI数据污染，数据污染分为哪几类？

　　网络安全专家曹辉介绍：数据投毒主要针对两个方面，一个是针对视觉类，一个是针对自然语言处理类。例如图片是一个斑马识别人工智能系统的训练数据，照片上很多斑马进行了标注。如何进行数据污染？就是在其中的一匹斑马身上加一个绿点。加了绿点的斑马，特意不进行标注。这样的训练数据大概会有几万张，在这几万张训练数据里面的其中三四张进行类似的污染处理，就会导致生成的人工智能模型带有后门，就会导致当它再见到类似身体上有绿点的斑马，它就不会认为这是个斑马，就导致了AI模型的判断受到干扰。

　　专家介绍，人工智能数据污染分为两类：一种是人为主观恶意去篡改数据，误导人工智能的输出结果；另一种是人工智能本身会海量的收集网络的庞大数据，其中不良信息如果没有被甄别删除掉，而是当作可以信任的信息源加入算力中，输出的结果同样不可信任。

　　国家安全部数据显示，AI在训练过程中，即使是0.001%的虚假文本被采用，其有害输出也会相应上升7.2%。

　　为何小小的污染源输出时的危害会几何级数的上升呢？专家介绍，被污染的数据有着明显地与其他数据不同的观点和内容，这种情况下，AI很可能将污染数据标记为“有特点和高信息量”，并增加在算力中使用的比例。据央视