专题:纽约时报起诉微软和OpenAI:使用未授权内容训练其AI
近日,《纽约时报》在纽约南区法院起诉微软和OpenAI,诉状称:被告未经许可使用大量版权文章训练人工智能模型,开发与《纽约时报》竞争的产品,赚取了丰厚的利润,《纽约时报》试图与被告达成协议,保障内容使用的公平价值,但未达成解决方案。被告声称行为属于“合理使用”,但实际并不具备“转换性”。《纽约时报》要求其停止侵权、恢复原状、赔偿损失。今天和大家聊聊,微软和OpenAI对《纽约时报》有哪些侵权行为,以及根据我国法律,这些行为应如何定性。
因为《纽约时报》文章的质量非常高,所以其网站内容被作为了ChatGPT的训练数据来源。OpenAI承认,与其他低质量来源的内容相比,包括来自《纽约时报》在内的高质量内容,对于训练GPT模型来说更重要、更有价值。诉状称微软和 OpenAI在训练大模型时使用了《纽约时报》作品,并且其多个产品中包含了《纽约时报》的作品。
OpenAI的GPT-2的训练数据集包括一个名为WebText的OpenAI内部语料库,其中有Reddit社交网络用户发布的4500万个链接的文本内容,这些是公认的高质量网络内容。WebText数据集的链接被OpenAI通过网络抓取,其中包含了大量《纽约时报》内容。《纽约时报》的NYTimes.com 域名是WebText数据集中数量最多的15个域名之一,并被列为WebText数据集中第五个“顶级域”,拥有333,160个条目。
在GPT-3中权重最高的用于训练的数据集Common Crawl中,《纽约时报》网站域名www.nytimes.com域名是最具代表性的专有来源之一(排名第三,仅次于维基百科和美国专利文献数据库),Common Crawl数据集包含至少 1600 万条独特的内容记录来自《纽约时报》的 News、Cooking、Wirecutter(意为“钢丝钳”)和 The Athletic等板块。
根据 Common Crawl, WebText和 WebText2训练数据集估算,被告可能完整使用了数百万份《纽约时报》拥有版权的作品来训练 GPT 模型,且没有任何向《纽约时报》提供许可或其他补偿。
例如,2019年《纽约时报》发表了一篇荣获普利策奖的关于纽约市出租车行业掠夺性贷款的系列文章。历时18个月的调查包括600次访谈、100余条记录请求、大规模数据分析、审核数千页内部银行记录和其他文件,最终导致犯罪调查,以及促成新法律以防止未来的滥用行为。OpenAI在创作过程中没有发挥任何作用,但只需很少的提示,其产品就会逐字背诵其中的大部分内容。
在诉状中,《纽约时报》的诉讼请求除了要求法院判令被告赔偿损失外,还要求恢复原状、以及法律或衡平法允许的任何其他救济永久禁止被告从事非法、不公平和侵权行为、销毁所有 GPT 或其他大型语言模型以及包含《纽约时报》内容的训练素材。笔者认为,对被告方OpenAI和微软而言,恢复原状和销毁训练素材的诉求如果被法院支持,会是一个麻烦,但不至于导致ChatGPT崩溃或者停摆。
虽然ChatGPT的训练素材的记忆方式和传统的电脑复制、粘贴、存储内容的过程有一定区别,而且人工智能服务机构对此也讳莫如深,但从网上泄露的内容看,有些技术漏洞可以导致输入一次提示词,ChatGPT就会向使用者反馈原始的训练素材,说明其也是存在存储区的,所以哪怕法院判决删除侵权素材、恢复原状,OpenAI和微软应该也可以通过删除存储的争议内容来履行判决。
微软通过与OpenAI合作,将OpenAI的GPT商业化,并将其与自己的必应搜索相结合。2023年5月,微软和 OpenAI推出了Browse with Bing,这是一个 ChatGPT插件,其可以通过必应搜索引擎访问互联网上的最新内容。必应聊天和Browse with Bing结合了ChatGPT-4 模仿人类表达的能力,必应用户可以直接阅读搜索结果中的《纽约时报》文章自然语言摘要内容,从而无需访问《纽约时报》自己的网站。
不同于传统搜索引擎只显示网页摘要,必应搜索引擎页面上的“合成”搜索结果可以直接回答用户查询,并且可能将《纽约时报》报道中广泛的内容进行释义和直接引用。对于《纽约时报》而言,这种方式实际意味着替代,用户无需访问其网站就可以使用他们的内容,这将导致商业利益受损。
由于互联网的兴起,传统媒体如《纽约时报》的纸质版内容已经被严重打击了,这使得他们损失了报纸订阅费用和广告收入。所以不得已,他们在网站上推出了付费墙,也就是少部分内容免费或者每月少量内容免费,要多阅读就要付费。这里面有两部分收入,免费阅读的广告收入以及收费阅读的订阅收入。
传统的搜索引擎的搜索结果一般只显示两到三行文章的报纸网站摘要内容,用户要阅读还是要打开报纸网站,所以能和付费墙兼容。但必应聊天和 Browse with Bing这两个功能的出现使平衡被打破。用户无需访问网站就能获得他们的内容会使他们拿不到广告收入以及收费阅读的订阅收入,这也是他们起诉的重要原因。
除了复制《纽约时报》新闻媒体内容外,必应ChatGPT插件和浏览器使用 Bing for ChatGPT 时,还会显示《纽约时报》Wirecutter板块内容的大量摘录或释义提示。该板块的记者以完全的编辑独立性和诚信,在长达数十年的时间里每年花费数千小时研究和测试产品,以确保只推荐最好的产品。这些建议在呈现给读者时,包括被介绍的产品在购物网站的直接链接,用户购买后,《纽约时报》公司也会有收益。
但必应的ChatGPT插件有效截取了Wirecutter 的精华部分直接呈现给用户,这会降低用户访问到《纽约时报》原始来源的动力。减少Wirecutter 文章的流量,进而减少附属链接的流量,最终导致《纽约时报》的收入损失。比如通过访问必应的ChatGPT插件,用户已经了解 Wirecutter推荐的最好的无绳真空吸尘器,以及这些建议的基础,就没有理由再访问原始文章并点击其网站内的链接。这样,被告的人工智能产品通过不公平竞争,夺取了《纽约时报》的商业机会。
根据我国法律,如果搜索引擎提供的内容实质性替代了原始网站,涉嫌构成著作权侵权,《纽约时报》在美国也就微软必应搜索引擎的类似行为起诉,说明根据美国法律,这个行为也涉嫌侵权。
诉状称,ChatGPT将“幻觉”定义为一种机器的现象,如聊天机器人,产生看似真实的感官体验,不符合任何现实世界的输入。被告的GPT模型将自信地提供信息,而不是说“我不知道”,这些信息在最好的情况下是不完全准确的,在最坏的情况下,是明显错误的(但无法识别),而用户会很难区分“幻觉”和真实的输出。
例如,在回答请求提供《纽约时报》题为《亚马逊内部在伤痕累累的工作场所中争夺大创意》的文章的第六段时,必应的ChatGPT插件Bing Chat自信地声称要复制第六段。如果其真的这样做了,就实施了侵犯版权行为;但Bing Chat完全捏造了一个段落。
用户给了Bing Chat《纽约时报》一篇名为《有益心脏健康的饮食方式》的链接,要求其摘录出“15种最有益心脏健康的食物”, Bing Chat向用户列举了15种有益心脏健康的食物,其中包括适量的红酒。而事实上《纽约时报》的文章没有列出这15种食品中的12种。而且《纽约时报》的最新报道得出的结论是,红酒不利于心脏健康。
此外,诉状还指出ChatGPT捏造了不少健康领域的文章。笔者认为,如果人工智能提供的服务出现幻觉,就会提供虚构的事实,在法律上,以虚构的事实描述他人的,涉嫌诽谤,也就是名誉侵权,损害了《纽约时报》的声誉。ChatGPT作为人工智能没有人格,所以无法负责,应当负责的是其服务提供者OpenAI和微软。
最后,《纽约时报》作为一家老牌的很有影响力的媒体,本次其起诉OpenAI和微软,在业界引发了很大反响,说明虽然生成式人工智能还是新生事物,但重量级媒体已经关注其破坏行业秩序的问题了。事实上,除了此案,美国发生了很多对于生成式人工智能的维权案件,笔者写过的就包括小说作者维权的《《权力的游戏》作者起诉ChatGPT侵权,AI训练要不要获得著作权人的授权?》、软件开发者维权的《用GitHub上的开源代码训练人工》、唱片产业版权人维权的《环球唱片起诉Claude:用侵权歌词训练人工智能违法吗?》,以及综合性的《AI生成的作品受版权保护吗?我与ChatGPT各抒己见》等,大家有兴趣也可以看看。
(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com。)
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)