每经记者 文巧 郑雨航 每经编辑 兰素英
想象一下,在一个巨大的机房内,数不清的服务器闪烁着点点亮光,随着数据流的进入,大语言模型将其一股脑儿“吞食”,随后开始高速分析和处理。在日复一日的数据“投喂”和深度学习技术的推动下,大模型表现得越来越类人化,OpenAI等一众AI公司也随之迎来迅猛发展。
然而,对于到底“投喂”了什么数据,是否获得授权,这些AI公司总是讳莫如深。伯克利计算机科学家Stuart Russell等学者认为,大模型吞噬了大多数互联网信息,以复制人类智能并将其以自动化形式镜像回馈给我们。
当意识到其网站上发布的故事都被自动抓取成了大模型的“食物”后,以《纽约时报》为首的媒体/出版机构向OpenAI等发起了版权诉讼。《每日经济新闻》记者在采访哈佛法学院教授丽贝卡·塔什内特(Rebecca Tushnet)、安杰世泽律师事务所合伙人于雯竹后了解到,此类案件判定的难点在于如何确定AI输出内容与媒体报道间的“实质性相似”。
另一方面,OpenAI等科技公司也向媒体/出版机构抛出了橄榄枝,因为数据总有耗光的一天。研究机构Epoch AI近期预测,大模型将在2026年至2032年之间消耗完所有可用数据。
![](http://n.sinaimg.cn/spider20240708/381/w709h472/20240708/2276-3136f2a1c062e6470940f74b2e827b6e.jpg)
有外媒评论称,起诉或许是《纽约时报》谈判的手段之一。实际上,在起诉之前,《纽约时报》与OpenAI一直在商谈授权合作协议。图为OpenAI创始人兼首席执行官阿尔特(11.790, -0.45, -3.68%)曼。 视觉中国(24.420, -1.63, -6.26%)图
付费内容被抓取
2009年末,媒体大亨默多克曾在一场论坛上说:“有些人觉得他们有权拿走我们的新闻内容,还无需为新闻生产贡献一分钱。他们几乎侵吞了我们的全部新闻,这可不是合理使用。说得直白些,这就是偷。”
当时,随着谷歌等新兴互联网公司的出现,美国报业的广告收入腰斩。而如今,OpenAI等生成式AI公司的强势崛起,类似的一幕似乎又开始重演。
新闻集团首席执行官罗伯特·汤姆森就曾表示,“媒体的集体知识产权正受到威胁,我们应该大声要求赔偿”。新闻行业律师Steven Lieberman更是直言,OpenAI的巨大成功也要归功于其他人的工作,它在未经许可或付款的情况下获取了大量优质内容。
据外媒,ChatGPT主要通过阅读书籍、文章和公开的网络内容来学习,包括来自互联网的在线新闻文章。类似的大语言模型也依赖的是社交媒体帖子、博客、数字化书籍、在线评论、维基百科页面以及人们能想到的几乎所有网络信息。
在意识到ChatGPT对历史和时事的了解源自其网站上发布的故事(甚至是付费内容)时,去年底,《纽约时报》对OpenAI以及微软提起诉讼,指控后者未经授权使用该报版权内容训练AI模型,并在ChatGPT产品中呈现给用户。
该案打响了媒体机构起诉OpenAI的第一枪,随后又有多家媒体加入了这一队列。据《每日经济新闻》记者不完全统计,截至今年6月底,已至少有13家新闻媒体机构对OpenAI和微软提起侵权诉讼。这里面有Alden Global投资集团旗下的地区性知名报纸,包括芝加哥论坛报、纽约每日新闻、丹佛邮报,还有数字新闻媒体The Intercept、Raw Story以及非盈利新闻组织The Center for Investigative Reporting。
“判断这种数据抓取行为是否侵犯版权,是一个复杂且有争议的问题。”安杰世泽律师事务所合伙人、中国和美国纽约州执业律师于雯竹在接受《每日经济新闻》记者采访时表示。
这些诉讼只是各行业与生成式AI公司斗争的缩影。
美国当地时间6月24日,全球三大唱片公司索尼音乐集团、环球音乐集团和华纳音乐联合多家唱片公司,向AI音乐生成公司Suno和Udio 开发商Uncharted Labs发起诉讼,指控后者非法使用版权音乐来训练模型并提供服务。唱片公司指控Suno抄袭了662首歌曲,Udio抄袭了1670首歌曲,正在尝试索取每件音乐作品最高15万美元的赔偿费用。
8个月角力无结果
越来越多关于生成式AI技术的法律之争也让人们开始正视媒体/出版商与颠覆性技术之间的关系。
据著名广告周刊Adweek报道,谷歌去年5月推出了基于AI的搜索引擎 Search Generative Experience(SGE)测试版,接受采访的媒体高管和搜索引擎优化专家称,出版商必须为自然搜索流量的大幅下降做好准备,下降幅度可能在20%到60%之间。而出版商在开放网络上的搜索流量减少通常意味着数字广告收入下降。新型媒体公司Raptive创新执行副总裁Marc McCollum估计,在目前的SGE下,整个出版业每年的广告收入损失可能高达20亿美元。
而《纽约时报》的起诉不仅是媒体领域的重要里程碑案件,亦可以为法律业界提供极具参考价值的信息。
“就版权法而言,本案的重要影响在于版权法在数字和AI时代的适用范围。特别是对于新闻报道这类具有较高公共利益的文本内容,如何平衡版权保护和信息自由将成为一个关键问题。”于雯竹对记者说道。
在于雯竹看来,如果《纽约时报》的诉讼获得成功,将树立一个重要的法律先例,鼓励其他文字类媒体、版权机构和作家团体组织跟随起诉OpenAI及类似的AI公司。本案可能会督促AI公司重视AI模型训练的合法性,可能推动相关行业规范的建立。
目前,该案件已经持续将近8个月,但还没有定论。
“实质性相似”难证明
《纽约时报》在起诉书中称,ChatGPT几乎逐字复制了其新闻报道。该报举例称,2019年,《纽约时报》发表了一篇荣获普利策奖的关于纽约市出租车行业掠夺性贷款的系列文章。该报称,只要稍加提示,ChatGPT就会一字不差地背诵其中的大部分内容。
在其他多家媒体的起诉书中,记者发现,其法律论证和主张都基于美国1976年版权法和《数字千年版权法》(DMCA)。
对于这两部法案中涉及AI的内容,于律师告诉记者,“就1976年版权法而言,侵权的判定通常依赖于原作品和被指控侵权作品之间的相似性,以及实际的复制行为。本案中实际复制行为相对容易证明,因为OpenAI并未否认其训练数据中包含《纽约时报》的文章。”
然而难点在于,“证明最终生成的文本构成版权侵权仍需满足‘实质性相似’测试,因为它有助于判断受版权保护的表达元素是否被复制,还是仅复制了其中的思想。版权保护的是表达,而不是思想。你可以用自己的语言重新实现他人的思想,这不构成版权侵权。但如果你使用他人的语言——即他们的表达——那就是版权侵权。”于律师说道。
谈及DMCA,于雯竹解释道:“其中的一项规定鼓励版权持有者在数字资产中添加内容管理信息(CMI),例如帮助识别创作者或权利持有者的信息,并禁止他人移除这些信息。”
然而,《纽约时报》起诉书提到,OpenAI在抓取其文章以创建数据库时,移除了这些信息,违反了DMCA。
“实际上,美国是判例法国家,而其版权法及DMCA并未特别规定与AI相关的法律内容,对于OpenAI的行为是否属于侵权的认定,法院依据的是相关的先例及其对相关法律条文的解释。”于雯竹表示。
公司称是“合理使用”
在回应《纽约时报》版权侵权诉讼时,OpenAI强调使用公开材料训练AI模型属于合理使用。这一规则基于美国1976年版权法第107条规定。
哈佛法学院教授丽贝卡·塔什内特在接受《每日经济新闻》记者采访时认为,“美国版权法既提供了广泛的权利,也提供了广泛的例外。关键问题是AI训练是否构成‘合理使用’,以及当AI输出的内容与现有作品过于相似时,该问题到底应该归咎于模型还是用户的滥用”。
塔什内特认为,“OpenAI提供了有一个有趣的主张,即(AI)要获得高度相似的输出,必须故意用《纽约时报》原始文章中的大量引文来提示模型,这表明错误在于提示者(用户的滥用)”。
“‘合理使用’是美国版权法的一项关键优势,使其能够应对不断变化的情况。它促成了我们所知道的现代互联网的兴起,尤其是搜索引擎。按照同样的推理,只要输出通常不是从特定作品中复制而来,创建AI模型就应该被视为变革性的和公平的。”她对记者解读称,“我认为这是一个相当标准的有关‘合理使用’的问题”。
根据1976年版权法,判定合理使用的认定包括四个因素。其中,于雯竹认为,最重要的是第四点:使用对版权作品的潜在市场或价值的影响。简而言之,就是新作品是否对原作品构成市场损害。
《纽约时报》在起诉书中称,OpenAI的AI工具不仅未经授权使用了《纽约时报》的数据进行训练,还分流了《纽约时报》网站的流量,导致公司广告、订阅和授权营收的损失。因此《纽约时报》公司向OpenAI和微软提出数十亿美元的索赔,并要求他们停止使用自己的内容数据。
“我认为OpenAI的‘合理使用’辩护在理论上具有较大的合理性,但其成功与否取决于法院对四因素测试的具体评估。”于雯竹说道。
塔什内特也表示,“我对法院是否会驳回(OpenAI)的所有辩护持怀疑态度,但没有什么是绝对肯定的”。
窘境之下的合作
目前,OpenAI可以合法地为其模型“喂食”什么内容这一问题仍待解决,但媒体机构的策略开始呈现分化趋势。
当地时间6月27日,《时代》杂志与OpenAI宣布,两家公司达成了一项多年内容授权协议和战略合作伙伴关系。该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的AI模型。
据新闻稿介绍,OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章,以训练其AI模型,并在其面向消费者的产品(如ChatGPT)中用于回复用户的询问。但双方的交易价值并未透露。
今年5月,OpenAI和新闻集团也达成了类似的合作关系。在此合作下,OpenAI有权访问新闻集团旗下媒体的当前和存档文章,包括《华尔街日报》《MarketWatch》《巴伦周刊》《纽约邮报》等。
《每日经济新闻》记者注意到,过去半年时间,OpenAI已连续与多家媒体机构达成协议。
对媒体机构来说,接受OpenAI等AI巨头抛来的橄榄枝,与科技公司在AI新时代合作,共同探索新的资讯形态、商业模式和分成比例,可能是最好的选择。与OpenAI合作的媒体公司认为,生成式AI将继续存在,最好能分一杯羹。此外,与OpenAI合作让出版物在某种程度上可以控制他们的新闻报道在ChatGPT响应中的呈现方式。
正如新闻集团首席执行官Robert Thomson所称,“(与OpenAI的协议)认可了顶级新闻应有顶级价格。数字化时代的一大特征是分销者占据主导地位,而内容创作者经常利益受损。很多媒体公司都被无情的科技大潮所卷席。我们现在有责任抓住这一最大的机遇”。
有外媒评论称,起诉或许也是《纽约时报》谈判的手段之一。实际上,在起诉之前,《纽约时报》与OpenAI一直在商谈授权合作协议,但在OpenAI加入了新的免责条款后,谈判破裂。
对科技公司来说,支付授权费用一方面可以有效化解法律风险,另一方面可以获得更多优质训练数据,优质数据才是决定未来AI大模型优劣的关键因素。毕竟,当前各大科技公司都面临数据枯竭的风险。
在6月更新的一项研究成果中,人工智能研究机构Epoch AI称,据他们估测,目前人类生成的公开文本总量约为300万亿个Token,但使用数据的速度远远超过了生成数据的速度,这意味着大模型将在2026年至2032年之间消耗完所有可用数据。
与AI公司合作到底能给媒体机构带来多大的收益?
以新闻集团举例,《每日经济新闻》记者注意到,除2024财年第二财季由于图书出版成本降低以及与宣布的5%裁员计划相关的总成本节省所带来的高额净收入之外,新闻集团每个季度的净收入均在6000万美元以内。而《华尔街日报》援引知情人士的消息称,新闻集团与OpenAI的协议价值在五年内可能超过2.5亿美元,包括现金和使用OpenAI技术的积分形式的补偿。如此算来,相当于OpenAI每年将向新闻集团支付高达5000万美元的内容授权费用,这几乎相当于新闻集团将近一个财季的净收入。
从近期科技公司与媒体达成的合作金额来说,这一交易可以算是AI行业发展的里程碑事件。而且,新闻集团与OpenAI的协议并非是一份独家授权协议,意味着新闻集团还可以从谷歌等其他AI公司继续获得授权收入。
汤森路透的财报也证实了合作带来的收益。《每日经济新闻》记者查询汤森路透公司的财报发现,2024年第一季度,该公司收入为18.85亿美元,同比增长8%。该公司在财报中写道,“(增长)主要是由于‘三大’部门(该公司的法律、企业和税务以及会计部门)的经常性收入和交易收入的强劲增长,以及路透社新闻部门的生成式AI相关内容许可收入”。
一季度财报显示,路透社新闻业务的收入为2.1亿美元,同比增长3%。这一增长主要是由于汤森路透与伦敦证券交易所集团(LSEG)数据分析部门签订的新闻协议。根据该协议,路透社新闻将向LSEG授权提供新闻内容,后者用于生成AI相关内容。2024年第一季度,仅该协议为路透社新闻业务带来的收入就高达9600万美元。
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯 收起台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯
- 2025年02月18日
- 03:44
- APP专享
- 扒圈小记
153,208
载近80人,加拿大一客机着陆时突发事故,机身翻覆现场升起浓烟!
- 2025年02月17日
- 22:08
- APP专享
- 扒圈小记
3,534
美一客机在加拿大降落发生事故:机身翻覆机腹朝上 现场升起浓烟
- 2025年02月17日
- 22:56
- APP专享
- 北京时间
2,068
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
北京红竹今天 08:23:54
3、老三样不变任何的方向都不可以一直向上,虽然今天开始调整,但对于DS和人形机器人(sz300024)和铜缆,我还是重点看待。方向不变,但需要掌握节奏,DS目前指数还处于五分钟级别三买区间,急跌洗盘后还会有反复折腾。DS和人形机器人(sz300024),上周五就和大家说了资金已经有变化了,高位股资金出逃,但滞涨品种有资金流入。方向可以不变,但节奏可不能一根筋,一根筋的思维还炒啥股?当然了,当指数调整的时候,大部分投资者是不适合交易的,休息就是最好的交易。有多大的锅、就下多少的米。 -
北京红竹今天 08:23:51
2、调整开始了?我觉得差不多开始了,昨天红竹在午报中强调的就是本周有洗盘的预期,时间窗口就在本周二三,这不,周二就来了。恒生科技指数和创业板还没有跌破防守线,沪指也没有出现五分钟级别三买,客观信号没出现。但高位股筹码松动了,已经非常明显了,就当调整开始看待不会出大错,顶多不赚钱,至少不会亏损。调整的话,看日线级别回落一笔,至少五个新低,五个新低之后上证50ETF、沪深300ETF,到时候可以定投一些。如果恒生科技ETF也能给个至少五个新低,那就漂亮,至少可以给一些投资者再次定投的机会了。毕竟只有恒生科技ETF最有性价比。 -
北京红竹今天 08:23:45
1、缩水辛辛苦苦一个月,一天缩水回到解放前,昨天总利润已经到了3.9%,昨天看到一只DS点火信号,立刻下手买入,代码输入错了,整了个乌龙指,今天亏损出局,总账户损失1%点多。这是白白丢掉的,人家乌龙指都大赚,我这是大亏。再加上昨天买入的DS,买入后直接大涨7%,今天大跌8%。今天还做了加仓,正常交易其实还算OK,也算正常的曲线回落。没有乌龙指的话,总盈利应该在2%以上。就这乌龙指搞的我郁闷呀。【更多独家重磅股市观点请点击】 -
宋谈股经今天 08:03:55
【VIP直播间】近期组合个股教学,今天逆势上涨,想了解布局逻辑的,跟上节奏的!速戳抢购查阅〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 08:01:04
【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
股道龙门今天 07:39:29
今日大跌动因解析首先,AI赛道遭遇“黑天鹅”国际竞争加剧:马斯克旗下xAI发布新一代大模型Grok-3,性能超越DeepSeek等主流AI产品,并宣布可能开源Grok-2,直接冲击A股科技股信心。国内AI概念退潮:前期领涨的DeepSeek相关板块(如算力、应用端)因技术替代风险大幅回调,拖累市场情绪。其次,美联储“鹰派”压制全球流动性降息预期落空:美联储官员接连表态,强调通胀压力下3月降息无望,美元走强导致外资回流压力增大,A股北向资金呈现净流出。国内政策对冲有限:尽管新型储能、低空经济等产业政策持续出台,但市场更关注外部流动性收紧对估值的压制。再次,避险情绪主导调仓板块轮动加速:资金从高估值科技股撤出,转向银行、高股息等防御性板块,四大行股价创新高印证避险需求。缩量下跌信号:两市成交额缩至1.79万亿元,反映市场观望情绪浓厚,增量资金入场意愿不足。近期热点板块分析1. 政策驱动型:储能与固态电池催化因素:八部门联合印发《新型储能制造业高质量发展行动方案》,明确2027年目标,全固态电池技术路径获机构力挺。市场表现:宁德时代(sz300750)、赣锋锂业(sz002460)等龙头逆势走强,资金博弈政策落地后的业绩兑现。2. 避险偏好型:银行与高股息板块逻辑支撑:社融数据超预期、银行资产质量改善,叠加低估值属性,成为资金“避风港”。工商银行(sh601398)、建设银行(sh601939)等获机构增配。3. 技术迭代型:机器人(sz300024)概念短期催化:宇树科技算法升级、Meta加码AI机器人(sz300024)投资,人形机器人(sz300024)商业化进程提速。核心标的:减速器、传感器等细分领域(如绿的谐波(sh688017)、奥普特(sh688686))反复活跃。综合分析:短期市场或延续震荡,需观察权重股能否稳住指数,以及科技股止跌信号,主线方向依然围绕人形机器人(sz300024)、人工智能两大方向挖掘机会! -
徐善武今天 07:19:28
今天市场午后持续走低,创业板指领跌。沪深两市全天成交额1.8万亿,较上个交易日缩量1424亿。盘面上,热点较为匮乏,个股跌多涨少,全市场超4600只个股下跌。从板块来看,银行股逆势走强,中、农、工、建四大行盘中均再创历史新高。今天盘面上主要高位连板情绪退潮,影响了整个盘面,跌停多比较伤市场人气,前期热点板块AI等都是大跌,前两天卖在高位的朋友,今天是不是可以放心了?不要担心卖飞,也不要担心不是卖在最高点。今天替代ds热度的是电池板块,这主要是因为昨晚新能源储能的利好。低吸高抛模式有望是最好的应对方式,耐心等待回调到位。内资主力资金一天流出近千亿,而且近期指数不断试探向上,但是主力资金持续的流出,最能够说明市场上一些高位股资金在出货为主。今天之所以银行护盘指数,实际上是前几天高位震荡之后,市场信心已经完全不够了,在信心不足的情况下,只能拉升银行板块护盘,换个角度来讲,银行如果不维稳的话,这几天内资流出可能会对市场情绪造成更大的冲击,最后指数面子表现就会不好看了。同时今天指数回落到3214点就开始有所支撑,这个位置也刚好是10天线和60天线的交叉位,短期这里会有一定的支撑,如果自己是炒作热点的,短期可能要谨慎一些,现在除了科技相关有一定的泡沫之外,其余一些行业的泡沫几乎是比较低,整体上没有必要太过于悲观了,指数已经被上面定调,增量资金也在等待回调后的入场时机。 -
巨丰投资张翠霞今天 07:13:19
4小时运行结束,总结全天市场运行,1)指数盘中巨震,三大指数冲高回落,收盘跌幅基本在1%以上,沪指有银行新高护盘,较为失真,二月份春季躁动行情迎来首次日线级别强分歧,第一博市场上涨速度较快,但大题材时间远未到结束时间,明日科技主线题材修复,关注修复力度;2)量能,沪深两市今日成交额18263亿元,较上个交易日19718亿元减少1455亿元;3)行业板块方面,以加权涨幅来看56家行业1家红盘,银行等板块涨幅居前;文教休闲、传媒娱乐、广告包装等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~ -
徐善武今天 07:08:27
最后1天!!!【“惠“聚元宵】乐享头彩!《赢在龙头》VIP课程全场5折,半年VIP课程低至499元/月,活动过后价格会提升,切勿错过!加入《赢在龙头》VIP,享三大顶级服务=【1】购买VIP自动加入私密小直播间,其中经常分享精选个股买卖逻辑!【2】每周2-5只金股内参调入调出服务,适合实时看盘的投资者!【3】每天早盘文章:包含近期布局、热点版块、指数预判!速戳抢购〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势起航今天 07:08:20
市场午后持续走低,创业板指领跌。沪深两市全天成交额1.8万亿,较上个交易日缩量1424亿。盘面上,热点较为匮乏,个股跌多涨少,全市场超4600只个股下跌。从板块来看,银行股逆势走强,中、农、工、建四大行盘中均再创历史新高。锂电池概念股一度冲高,杉杉股份(sh600884)等涨停。下跌方面,DeepSeek等AI应用股集体调整,杭钢股份(sh600126)等多股跌停。板块方面,电池、银行、贵金属等板块涨幅居前,Sora概念、教育、传媒、DeepSeek等板块跌幅居前。截至收盘,沪指跌0.93%,深成指跌1.61%,创业板指跌1.98%。