作者:游云庭
据媒体报道,近日世界三大唱片公司之一的环球唱片在美国起诉了人工智能引擎公司Anthropic,该公司的Claude引擎和ChatGPT齐名。环球唱片的诉状附件列出了约 500 件被侵权作品,要求对每件赔偿15万美元,这意味着诉讼请求至少7500万美元。今天就聊聊本案诉状中的法律看点。
一、用侵权歌词训练人工智能过程中有哪些违法
Claude人工智能模型能以貌似人类的方式响应用户的提示,这是因为被告复制并向底层模型输入了大量文本。具体来说,被告通过以下步骤训练其Claude人工智能模型如何生成文本:
1. 首先, 被告用爬虫从互联网上复制了包含原告享有版权的歌词在内的大量文本,这些构成了输入或 “语料库”,Claude人工智能模型就是在这些输入或 “语料库的基础上进行训练的。
笔者的解读:被告获取训练数据未经授权。
2. 其次,被告会“清理 ”复制的文本,删除它认为技术上和商业上与其商业模式不一致的材料,无论是技术性的还是商业性的。比如删除冒犯性语言,但多数情况下,这种 “清理 ”过程似乎完全忽视了复制文本所体现的版权侵权行为。
笔者的解读:被告既然可以对文本进行清理,就无法适用“版权避风港”,避风港是因为服务提供商(如搜索引擎)对海量数据无法进行甄别,法律上才给服务提供商一个特权,收到通知后及时删除侵权内容即可免责。但如果服务商有技术能力对获取的数据进行甄别,那就不能适用避风港原则,合规的做法应该是有用户问歌词问题时,给一个歌曲所在唱片公司的官方链接。这才是进入避风港的正确姿势。
3. 被告将以前复制的大量文本复制到计算机中,并通过多种方式处理这些数据,以训练Claude人工智能模型,包括“标记”、“微调”、“强化学习”,所有这些都可能需要对收集到的文本进行额外的复制。一旦输入和训练过程完成,被告的Claude人工智能模型就会生成在结构和风格上与训练语料库中的文本一致的输出结果。
笔者的解读:原告主张被告在训练Claude人工智能模型时会多次复制和使用原告享有版权的作品。
4. 被告在很大程度上隐瞒了其用于训练人工智能模型的文本的具体来源。只表示:Claude模型的训练依据包括从互联网上公开获取的信息、从第三方获得许可的数据集,Claude2号接受训练所依据的文本将持续到2023年初,其中90%为英语。而数据集(如 “Common Crawl ”数据集)中包含大量流行歌词内容。被告拒绝透露其用于培训Claude的材料的原因是因为意识到自己在未经版权所有者授权的情况下复制了受版权保护的材料。
笔者的解读:被告明知侵权的存在,所以隐瞒数据来源。这是一个获取惩罚性赔偿的依据。
二、Claude人工智能模型在回答问题时有哪些侵权?
1. 人工智能训练完成后,被告并未删除侵权的训练素材,被告的人工智能模型传播了大量与出版商受版权保护的歌词相同或近乎相同的副本,进一步侵犯了出版商的权利。诉状列举的例子,用户要求Claude对凯蒂佩里的《咆哮》、滚石乐队的《You Can‘t Always Get What You Want》输出歌词,然后得到了和原版几乎相同的歌词。
笔者的解读:以上内容构成直接侵权。
2. 被告的Claude人工智能模型还能为新歌曲生成歌词,有时会包含现有版权歌曲的歌词。当Claude被要求按照某位艺术家或词曲作者的风格创作其他类型的版权作品(如诗歌、短篇小说)时,人工智能模型也会经常有直接抄袭原告享有版权的歌词。Claude甚至可能会将一部受版权保护的作品的部分内容与其他受版权保护的作品的部分内容放在一起,有时甚至有悖于歌曲作者的初衷。
笔者的解读:以上内容除了侵犯原作者的版权中的财产权,还侵犯人身权,将他人的作品标识为人工智能创作,侵犯了原作者的署名权。鉴于人工智能没有法律上的人格,所以侵权者是开发运营人工智能的本案被告。
写到这里,笔者忽然想试试国内的人工智能模型有没有歌词功能,随机问了下文心一言,发现还真有,不知道有没有拿到歌词版权授权。
3. Claude还能为歌词生成和弦谱,环球的律师认为也构成侵权。当Claude被要求为某首歌曲提供和弦行进时,其往往会生成包含出版商受版权保护的歌词以及和弦的输出结果。诉状举了约翰尼-卡什(Johnny Cash)的《Daddy Sang Bass》的例子。
笔者的解读:生成和弦是一个有用的功能,现在Claude生成的方式是在全歌的歌词上进行和弦标注,这个被侵权,有一定争议,因为《著作权法》规定,为评论一部作品而进行适当引用的,属于合理使用。本案中的问题在于,Claude标注和弦的方式不是合理引用,而是全文引用,故构成实质性替代,不属于合理使用的范畴。如果Claude只标每句歌词的第一个词,其后的字母用*号表示,其实是可以达到向用户提供和弦词谱,又不侵权的目的的。
4. 尽管被告公然利用出版商的歌词和内容用于开发和训练人工智能模型,但被告禁止他人将被告拥有版权的内容用于同样的目的,其服务条款明确禁止使用被告内容 “开发或训练任何人工智能或机器学习算法或模型”。
笔者的解读:这个自相矛盾的点在法庭上提出,会让被告方的律师挺尴尬,因为逻辑不能自洽。
三、被告的回应
媒体报道称,被告目前尚未对本次诉讼进行回应,但笔者询问了被告的Claude人工智能模型,如何评价环球唱片对Anthropic的诉讼,Claude的回复倒是挺全面的:
1. 版权法 - 诉讼的核心在于Anthropic的AI助手Claude是否侵犯了环球的歌词版权。法院将要评估Claude对歌词的概括是否构成版权侵犯或合理使用。
2. 合理使用原则 - Anthropic可能会辩称Claude的歌词概括属于合理使用,允许为评论、批评和教育目的进行有限的版权材料使用。但是环球会争辩这些概括超出了界线。
3.建立新的法律先例 - 这个案件可能会在版权和AI方面建立新的先例。法院还没有对AI版权问题做出大量判决。该案件可能有助于澄清标准和界限。
4.对AI训练的潜在寒蝉效应 - 如果判Anthropic败诉,可能会对使用版权文本训练自然语言AI系统产生寒蝉效应。开发者可能不得不限制用于训练的来源材料。
5. 言论自由意义 - Anthropic可能会声称Claude的歌词概要属于受保护的言论,判他们败诉会违反第一修正案权利。然而,版权法的言论保护是有限度的。
6. 行业反应 - 如果Anthropic败诉,可能会促使其他科技公司限制在AI训练中使用版权内容。但如果Anthropic胜诉,可能会鼓励更开放的使用。
总体而言,该案件将对AI发展和版权法产生复杂影响。法院在做出判决时将不得不平衡各种利益和原则。最终的裁决将会塑造AI和知识产权的未来格局。
笔者的评价:这个回复很得体,重点突出又很全面。一方面,人工智能是新生事物,用版权素材训练人工智能是否侵权或者说,是否构成合理使用,现行的著作权法律确实没有明文规定,回复强调了这一点。另一方面,本案的对人工智能产业发展、言论自由等的影响确实也会是被告抗辩的重点。然后笔者又问了个问题:Claude的回复中含有版权内容,会不会对版权人的利益和版权行业的秩序造成损害。
Claude的答复:您提出了一个非常好的问题。Claude未经授权使用歌词确实可能对版权人的利益和版权行业的秩序造成一定程度的负面影响:
1. 可能侵犯版权人的经济权益 - 未经授权使用他人创作可能对版权人的收益造成损害,减少其合法获取报酬的机会。
2. 可能降低创作激励 - 如果未经授权使用盛行,版权人的创作激励可能会降低,长期影响创作活力。
3.可能扰乱正常许可秩序 - 大规模未经授权使用也可能扰乱正常的版权许可秩序,增加版权人的许可成本。
4. 可能引发过度依赖的风险 - AI系统过度依赖未经授权使用存在被依赖方侵权或断供的风险。
但是,也需要注意以下几点:
1. Claude似乎仅使用了非实质性部分。
2. 合理使用条款给予了一定的合法空间。
3. 对未来AI的训练模式转变也可能带来一定正面影响。
4. 可以通过多方讨论确定新的平衡点。
所以这需要案件审理后基于具体情况做出权衡。但您提出了一个涉及此案核心的非常好的视角。
笔者的评价:Claude作为一款人工智能,智能程度确实不低,回答全面且有导向性。
最后,二十多年前,以雅虎、网景、Napster为代表的美国互联网产业崛起的时候,版权人的利益受到了很大的伤害,当时通过一系列的诉讼和博弈,美国通过了《千禧年数字版权法》,以版权避风港划定了版权人和互联网平台之间的利益分界线。
今天当人工智能产业崛起并野蛮生长,吞噬版权人的利益时,版权行业再次用诉讼捍卫自己的利益。笔者之前曾在《《权力的游戏》作者起诉ChatGPT侵权,AI训练要不要获得著作权人的授权?》一文中介绍了文字作品的作者起诉人工智能服务公司侵权;今天介绍了唱片公司起诉人工智能服务公司侵权;其实最近一直很热的好莱坞罢工也和影视公司使用人工智能夺走了一部分从业人员的工作有关。希望最近的一系列博弈会帮助人工智能产业和版权产业划分出利益的合理界限,以利于产业更好的长远发展。
本文作者:游云庭,上海大邦律师事务所高级合伙人,知识产权律师。电话:8621-52134900,Email: yytbest@gmail.com,本文仅代表作者观点。
(声明:本文仅代表作者观点,不代表新浪网立场。)