生成式AI时代，大模型数据安全如何保障？|人工智能|数据安全|AI_新浪科技

在生成式AI（人工智能）时代，数据安全的出路可能会是“用魔法打败魔法”，知识产权保护也可能要提前到token（字符串）层面。

4月26日，在2024中关村论坛上，人工智能企业与学者就AI大模型的数据安全问题进行了讨论。

中关村论坛数据安全治理与发展论坛现场澎湃新闻记者秦盛摄

“在生成式人工智能时代，我们在数据安全层面，面临的是不断组合和创造新的数据安全风险的问题，彻底解决这种风险需要算法和工具的支撑，而不是靠人，或者靠静态的方法去做相对固定的检测。”清华大学计算机科学与技术系教授、人工智能研究院基础模型研究中心副主任黄民烈如是说道。

他认为，生成式人工智能可以通过训练去组合，去生成新的内容，这些内容可能在过去的语料里根本没出现过，但它依然是有害的。所以，即便把训练数据处理得很干净，在生成式人工智能时代依然会面临有害内容产生的情况。

要解决这些问题，需要进行算法研究，比如针对性对抗攻击、自动红队，然后再加上安全和对齐手段，能够把问题在线下时就自动进行修复。

奇安信集团副总裁刘前伟表示：“做行业大模型的厂商都很担心语料会不会被窃取、有没有漏洞导致这些很核心的数据资产会泄露。这是通用大模型里过去没有特别关注的一点。”

刘前伟指出，在进行微调时，防篡改要求非常高，更需要安全，一旦标注错误，就会导致安全大模型判断错误。

而对于通用模型的使用，几乎所有人都会面临一个问题，就是当我们去问大模型问题时，会不会造成商业机密、个人信息的泄露。“不管是使用者还是开发者，都要解决隐私安全、商业机密、甚至是国家安全的问题。现在只能用AI对抗AI的方式才能解决内容安全的问题，用过去传统的流量过滤的方式是无法解决的，所以‘用魔法打败魔法’可能是一个很大的出路。”刘前伟表示。

IBM数据与转型咨询主管合伙人张玉明表示，IBM Global的一份调查报告调研了全球100多个国家和地区的高管对人工智能的看法，94%的企业高管都认为在部署AI解决方案前要确保模型的安全，但只有24%的企业打算在未来6个月内去引入一些网络安全组件，这就说明大家的认知和实际行动之间还存在延迟。

刘前伟指出，当下面临的另一个挑战，是跨境数据流动问题。如果全球的数据都汇聚在一起，不管是行业还是通用模型，训练效果一定会有很大改善。但是，数据跨境面临很多挑战，需要在多边协议等方面做更多的事，更多去拥抱国际组织，让国际的数据能够双向流通。

香港科技大学助理教授、香港生成式人工智能研发中心资深商业拓展经理韩斯睿认为，现有的知识产权保护制度，其实在智力产品的生成物层面就已截断，在生成式人工智能训练的token级别如何确权、如何保护，并没有共识。所以在数据脱离原本形态进入token新形态时如何进行确权保护，是法律和政策方面的一个症结，如果这个症结打通了，相信会极大地促进知识共享和流通发展。