本文对生成式人工智能的监管框架进行梳理,并就其数据合规风险及知识产权挑战进行解读,供生成式人工智能全链条企业及用户参考。
作者丨陈际红 陈煜烺 李佳笑
生成式人工智能(Generative AI,以下简称“Gen AI”)正处于快速发展阶段,技术发展提升了生成内容的质量和多样性,推动了广泛的应用,例如自动化文案生成、图像修复与增强、合成语音和药物发现等领域。随着企业陆续推出基于Gen AI的产品和服务,如国产大模型Kimi、OpenAI的GPT-4o API,全球Gen AI的商业化步伐显著加快。技术的发展和商业化的深入也引发了一系列的法律问题、监管问题和伦理问题,主要国家正在加紧制定相应的法律法规,确保技术发展符合伦理规范,防止滥用,如欧盟《人工智能法案》于2024年8月1日正式生效。
中国采取敏捷治理、小切口立法的路径,迅速回应人工智能技术带来的监管、法律和伦理挑战。全球首部专门Gen AI治理法规《生成式人工智能服务管理暂行办法》(“《暂行办法》”)于2023年8月15日正式施行,与《科技伦理审查办法(试行)》等法规共同构建了我国Gen AI治理的初步法律框架。2024年,《人工智能生成合成内容标识办法(征求意见稿)》《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》等文件接踵而至,各地网信亦陆续公布大模型备案信息,标志了我国Gen AI治理迈入纵深推进阶段。
一、监管框架梳理
(一)大模型备案
《暂行办法》对Gen AI服务采取了包容审慎和分类分级监管的基本思路,以Gen AI服务提供者为主要监管抓手,规定了算法合规、内容合规、知识产权合规、训练语料合规、数据标注合规等一系列的法定义务。
尤其是,《暂行办法》要求对于具有舆论属性或社会动员能力的、直接面向境内公众提供的Gen AI服务,应开展Gen AI服务的安全评估和备案,即“大模型备案”。备案服务包括但不限于具备文字生成、图片生成、声音生成、视频生成等功能的Gen AI服务,不具有舆论属性或者社会动员能力的Gen AI服务无需备案,若服务未面向境内公众提供,则不适用《暂行办法》。对于通过API接口或其他方式直接调用已备案大模型能力的Gen AI应用或功能,网信部门要求采用登记方式,允许其上线提供服务。区别于“生成合成(深度合成)类算法备案”,“大模型备案”在流程和侧重点上有明显区别。
(二)算法监管
Gen AI技术的底层逻辑是算法和模型,自2021年起,主管部门以“每年一部”的频次,相继出台了数部关于算法监管的规定。2021年12月31日,国家网信办联合四部门发布《互联网信息服务算法推荐管理规定》;2022年11月25日,《互联网信息服务深度合成管理规定》正式出台;2023年7月,《暂行办法》正式发布,其中亦对Gen AI涉及的算法提出合规要求。至此,我国涉及Gen AI算法监管的法律框架正式形成,Gen AI技术开发者及服务提供者应当依法履行算法相关监管要求,比如进行相关算法的备案。
(三)互联网信息服务及信息内容监管
基于Gen AI之“内容输入”和“内容生成”的运行模式,在我国,通过互联网向公众提供Gen AI服务一般会构成“提供互联网信息服务”[1],并需承担相应信息内容监管责任。具体而言,根据《暂行办法》,应承担内容生产者责任。
以2011年修订的《互联网信息服务管理办法》为核心,主管部门陆续出台了《互联网文化管理暂行规定》《互联网视听节目服务管理规定》《互联网新闻信息服务管理规定》《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》等针对互联网信息服务的规定,以及《网络信息内容生态治理规定》等专门针对信息内容治理的规定。除遵循一般性的互联网信息服务及信息内容监管规定外,Gen AI服务提供者应结合自身业务模式(例如是否利用Gen AI技术从事“经营性互联网文化活动”“互联网视听节目服务”或“互联网新闻信息服务”等),判断是否需遵循特殊监管要求。
(四)增值电信监管
目前,不少Gen AI服务提供者将Gen AI技术嵌入其他垂直领域进行应用,以为用户提供更好的产品体验。在我国,基于不同网络产品/服务的具体业态(例如是否涉及信息服务业务,是否涉及交易处理业务等),可能构成开展增值电信业务,进而需遵循《中华人民共和国电信条例》《电信业务经营许可管理办法》等规定,并参照《电信业务分类目录(2015年版)》(2019年修订),依法取得相应增值电信许可证,常见包括ICP证(即前述互联网信息服务)、SP证、EDI证、IDC证、ISP证等。Gen AI服务提供者应结合Gen AI技术所嵌入的具体应用类型,判断是否需取得相应增值电信许可证。
(五)科技伦理审查
《科技伦理审查办法(试行)》于2023年12月1日起施行,其以《科学技术进步法》等作为上位法,突出Gen AI等技术的科技伦理因素,要求从事人工智能等科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,并依法开展科技伦理风险评估和审查工作。此外,《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》亦提出了建立科技伦理审查管理制度并采取技术措施的要求。
二、数据合规
Gen AI全生命周期所牵涉的数据合规问题复杂,主要阶段包括模型训练、应用运行和模型优化,通常还会涉及Gen AI开发者、服务提供者、服务使用者等多方主体。除了专门规制Gen AI的法规外,Gen AI的参与方在进行数据处理活动中,还要遵循包括《网络安全法》《数据安全法》《个人信息保护法》《网络数据安全管理条例》等在内的基础性数据安全法律,如涉及数据跨境传输的,还要符合数据跨境传输的法律规定。
(一)模型训练阶段
大模型的成熟度及生成内容的质量都与训练数据高度相关,故此阶段涉及大量数据收集,并对此等数据进行清洗、分词(“Token化”)后用于模型训练和验证。数据清洗、Token化及模型训练存在内部性,需要重点关注Gen AI模型(及所用于训练的数据)的可靠性与稳健性以及数据质量(真实性、准确性、客观性、多样性[2]),并根据《暂行办法》第八条制定标注准则、开展数据标注质量评估、抽样核验等;而对于数据收集的风险则需关注数据源合法性,《暂行办法》第七条即要求Gen AI服务提供者“使用具有合法来源的数据和基础模型”。大模型的主要数据收集形式及合规风险包括:
* 采取网络爬虫等形式爬取数据,引发爬虫的合规风险;
* 收集已合法公开的公共数据,需要在开放目的在范围内以合理的方式处理数据;
* 直接面向数据主体收集数据,如收集其个人信息,则需满足个人信息合规的要求;
* 面向数据提供方间接收集数据,核心风险在于确保数据源合规,需对该等数据提供方采取合规管理措施;
* 合成数据(计算机模拟生成的数据),应主要关注数据质量。
(二)大模型运行阶段
本阶段将Gen AI技术投入部署,包括直接提供2C应用、提供2B应用接口(也称MaaS,Model as a Service,“模型即服务”,具体包括“API-标准化服务”和“API-定制化服务”)或私有化部署,即可实现人机交互。主要的合规风险包括:
* Gen AI服务使用者可能在使用服务时输入个人信息、公司商业秘密、他人享有著作权的作品,进而导致生成内容时可能存在隐私、数据泄露、侵权等风险;
* Gen AI服务提供者可能收集个人信息,且通常具备输出个人信息的能力,可能构成个人信息处理者[3],进而存在未充分履行个人信息保护合规要求(例如超目的处理、未就数据共享、数据跨境进行充分告知并取得有效同意等)的风险;
* Gen AI服务提供者提供Gen AI服务将面临可靠性与稳健性、透明性与可解释性、准确性与公平性等风险。
(三)大模型优化阶段
本阶段基于人机交互所收集的数据,可能被用于模型的迭代训练。一方面,此等迭代训练过程同样面临模型训练阶段的可靠性与稳健性、透明性与可解释性、准确性与公平性等风险;另一方面,此阶段的外部风险集中在向Gen AI服务使用者提供服务时,需明确就此等模型迭代训练等处理活动事先告知Gen AI服务使用者并取得有效同意。
三、知识产权挑战
区别于既定指令的机械执行,“像人类一样思考”的Gen AI实现了从“复制”到“创造”的跨越,对现有创作模式产生了颠覆性的变化,也对现行的知识产权法律体系带来了挑战。
(一)使用作品开展模型训练是否构成合理使用?
大规模和高质量的训练语料供给是大模型成功的基础。由于多数训练语料属于受到现行著作权制度保护的作品,因此对于大模型企业来说,在传统“授权-许可”模式下通过支付费用进而获得全部许可的经济成本过于高昂且耗时漫长,显然也不太现实。在大模型产业快速发展和应用的过程中,围绕创作激励与产业发展的作品使用行为性质也面临诸多争议和讨论,目前已有多个作者、版权方针对Gen AI模型训练过程中未经授权的作品使用行为提起诉讼。例如,2023年,美国艺术家对Stability AI在内的三家Gen AI商业应用公司提起版权侵权的集体诉讼;Getty Images也随之在美国针对Stability AI复制其图片用于训练Stable Diffusion的行为提起诉讼。据公开报道,2023年11月,中国的四位绘画创作者将某社交平台诉至法院,诉称其未经授权使用了原告的原创作品作为训练数据,从而生成了与原作高度相似的图片,“侵犯了创作者的合法权益”,目前案件仍在审理中。[4]
我国《著作权法》第二十四条规定了12类合理使用的法定情形,直接论证“Gen AI模型训练的作品使用行为构成合理使用”存在一定难度。具体而言,首先,Gen AI的本质是机器学习,且所开发的Gen AI技术一般具有商业目标,较难被认定“为个人学习、研究或者欣赏”;其次,Gen AI作为一种创造性的内容创作系统,并不存在“为介绍、评论或说明”现有作品的前提,且创作过程中难以量化“适当引用”的标准;此外,即使Gen AI研发一定程度上可以被视为“为科学研究”,但“少量”和“供教学或者科研使用”的目的限制也一定程度上导致适用困境。除明确列举的法定情形外,《著作权法》第二十四条还规定了“法律、行政法规规定的其他情形”的兜底条款,以留有一定灵活性。《著作权法实施条例》提出了合理使用的“三步检验判断标准”[5],即同时符合“特定情形下”“不影响原作品的正常利用”“没有不合理的损害权利人合法权益”的情况下存在被认定为合理使用的可能性,这也为司法快速应对技术发展进行适应性裁判留出了空间。例如,最高人民法院发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条规定:“在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。”
在 Gen AI兴起的大背景下,对传统著作权合理使用制度与三步检验法产生了革新要求。面对类型化的合理使用制度适用范围较窄,导致无法适应Gen AI产业发展而引发的著作权侵权问题,在进行充分的利益平衡考量的基础上,可以积极考虑将 Gen AI模型训练的作品使用行为纳入合理使用规制框架。
(二)Gen AI生成内容是否具有可版权性?
针对Gen AI生成内容可版权性的讨论集中于其是否具有“独创性”以及是否为“智力成果”。Gen AI技术的基本逻辑是基于输入内容进行处理并对外输出内容,因此人在其中的参与因素及智力贡献成为了判断可版权性的重要标准。
国际上,2023年2月,美国版权局拒绝了含有Gen AI生成图片的漫画《黎明的查莉娅》(Zarya of the Dawn)的版权登记申请。在此案中,美国版权局认为尽管文本提示影响了人工智能生成内容的方向,但该生成过程缺乏可预测性,不受申请人控制,因而人工智能并非单纯的编辑工具,故申请人可基于文本的作者身份及其对文字、视觉元素的选择、协调和编排,就文本与图像构成的整体登记版权,但该版权保护不适用于人工智能生成的每个单个图像。2023年3月,美国版权局发布《版权登记指南:包含人工智能生成材料的作品》(Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence),重点强调了只有当作品包含人类创作因素时,该作品才能够受到版权保护(Human Authorship Requirement),拒绝登记仅由机器或纯粹的机械过程而没有人类作者任何创造性投入或干预的情况下随机或自动运行产生的作品。[6]
在中国,除了已经广泛讨论的“威科数据库案”和“Dreamwriter案”外,北京互联网法院近期针对人工智能生成图片著作权侵权纠纷作出一审判决((2023)京0491民初11279号),认为:原告(用户)进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等。涉案图片体现了原告的智力投入,故涉案图片具备了“智力成果”要件;图片的调整修正过程亦体现了原告的审美选择和个性判断,涉案图片具备“独创性”要件。据此判决:1)涉案人工智能生成图片具备“智力成果”与“独创性”要件,应当被认定为作品;2)原告享有涉案图片的著作权。
无论在中国还是美国,对于Gen AI生成内容的可版权性认定思路基本一致:Gen AI生成内容具备独创性且可充分体现人类的智力活动,是Gen AI生成内容成为版权法意义上受保护的客体的前提。但是,关于生成过程中用户对生成物的控制能力、用户智力贡献在生成物中的具体体现及生成过程的可预测性等诸多事实问题,中国和美国显然出现了认知分歧,从而导致对可版权性的观点相左。
(三)Gen AI生成内容权属属于谁?
对于Gen AI生成内容的权属,法律并未就此进行明确规定。在上述北京互联网法院审理的案件的判决中,认为原告(即用户)是直接根据需要对涉案人工智能模型进行相关设置,并最终选定涉案图片的人,涉案图片是基于原告的智力投入直接产生,且体现出了原告的个性化表达,故原告是涉案图片的作者,享有涉案图片的著作权。
目前Gen AI服务提供者一般是通过协议等方式对Gen AI生成内容的归属作出约定,一般约定相关权益(包括知识产权)归属于Gen AI服务使用者,Gen AI服务提供者获得相应的使用授权。例如,Open AI在其用户协议中明确,“Open AI将输出内容的所有权利及权益转让给用户。Open AI可能会基于提供和维持服务而进行使用。由于机器学习的特性,基于类似问题可能会产生相同的回复。由其他用户请求和生成的响应不被视为唯一用户的内容。”[7]
(四)Gen AI生成内容是否存在著作权侵权风险?
由于Gen AI需要利用现有作品进行模型训练,并通过依赖训练作品形成的算法模型产生Gen AI生成内容,因此,Gen AI生成内容可能会不可避免地携带了训练作品的记忆或痕迹。Gen AI生成内容可能会呈现出训练作品的某些元素、特征、风格等。一般认为,如果Gen AI生成内容与训练作品在表达上构成“实质性相似”且存在“接触”,则可能存在侵权风险。具体而言,如果生成内容可视为训练作品的“复制件”,则可能落入“复制权”乃至“信息网络传播权”的规制范围;如果在保留作品基础表达的前提下形成了具有独创性的新的表达,则可能构成对训练作品“改编权”的侵害。广州互联网法院近期针对Gen AI平台侵权责任作出一审判决((2024)粤0192民初113号)也明确了前述判断思路,由于作品本身知名度较大,该Gen AI平台存在接触该作品的可能性,且生成图片部分或完全复制了作品的独创性表达,构成实质性近似,因此侵犯了对原作品的复制权和改编权。
除此之外,由于Gen AI生成内容与训练作品的基因脉络一致性,Gen AI生成内容还可能存在风格模仿的问题,如Erin Hanson风格的图画创作、AI孙燕姿的歌曲,也引发了各界对于风格模仿行为的讨论。鉴于版权保护“思想-表达”二分法的基本原则,风格本身并非一种表达形式,无法受《著作权法》保护。但是司法实践中,对于作品哪些部分构成“思想”,哪些部分构成“表达”往往是原被告双方争议的焦点。
Gen AI业界也认识到了潜在侵权对行业发展的困扰,为了消除消费端的侵权担忧,OpenAI、Google、Microsoft、Adobe和Shutterstock等领先的Gen AI业者,率先给出承诺,如果用户遭受第三方的知识产权索赔,其将为用户承担相应的法律责任。
(五)谁对Gen AI生成内容侵权承担责任?
《民法典》规定了网络服务提供者责任承担的一般原则,即网络服务提供者无需为用户利用网络服务的侵权行为承担责任,但对于其知道或应当知道的网络用户侵权行为应及时采取必要措施以避免损害扩大。在Gen AI面向终端用户提供服务场景下,生成内容是算法自身基于对Gen AI服务使用者输入内容的理解,通过算法生成的方式完成。尽管Gen AI服务提供者事实上在算法模型训练和优化过程中,会通过数据选择、调参入模等而对Gen AI生成内容产生影响,但对于最终Gen AI生成内容“选择、编辑、修改”的“输入-输出”这一过程,是由Gen AI服务使用者与算法共同完成的,Gen AI服务提供者本身对此控制较为有限,是否可以据此推定Gen AI服务提供者对生成内容侵权“明知”或“应知”仍有待厘清。
在上述广州互联网法院审理的案件判决中,法院依据《暂行办法》的有关规定认定涉案平台作为Gen AI服务提供者对于侵权行为未尽合理注意义务,从而承担侵权责任。此案的裁判引发了一定的争议,关于Gen AI侵权责任的认定和分配仍将会持续争论。
[注]
[1] 根据《互联网信息服务管理办法》第2条,互联网信息服务,是指通过互联网向上网用户提供信息的服务活动。
[2] 《生成式人工智能服务管理暂行办法》第七条第(四)项。
[3] 具体关于Gen AI服务提供者是否构成个人信息处理者的分析可参见“GEN AI 合规 FAQs(五)| 企业应用Gen AI需关注的数据安全和个人信息保护问题”,https://mp.weixin.qq.com/s/8PMFYOJbHYqH7dxONgdLIQ。
[4] 澎湃新闻:北京互联网法院开庭审理全国首例涉及AI绘画大模型训练著作权侵权案,https://m.thepaper.cn/newsDetail_forward_27800697,最后访问时间2024年12月10日。
[5] 《著作权法实施条例》第21条。
[6] 关于美国对于Gen AI生成内容的监管实践,详见《他山之石|美国如何认定Gen AI的可版权性?》,https://mp.weixin.qq.com/s/F0gg5GG4Ce4pjfujYb1d2g。
[7] https://openai.com/policies/terms-of-use,最后访问时间2023年9月12日。
陈煜烺
北京办公室 知识产权部
李佳笑 律师
北京办公室 知识产权部
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)