AI版权案首例?Meta被指控用盗版网站数据训练LLM

AI版权案首例?Meta被指控用盗版网站数据训练LLM
2025年01月14日 07:39 CNMO

AI版权案首例?Meta被指控用盗版网站数据训练LLM

  【CNMO科技消息】近日,关于人工智能的争议再度加剧,Meta被指控利用盗版网站的内容来训练其大型语言模型(LLM)Llama。外媒称,这起案件开创了科技公司因使用盗版内容训练AI而面临版权诉讼的先河。

  2023年,Meta因涉嫌在LLM模型Llama的训练过程中使用盗版内容而遭到小说家理查德·卡德雷和克里斯托弗·金登的起诉。案件名为“Kadrey等人诉Meta平台案”,原告声称Meta未经授权使用了受版权保护的内容。

  Meta曾向法院提交经过编辑的信息文件,但加利福尼亚州北区联邦地区法院的法官文斯·查布拉要求公开原始文件。这些文件展示了Meta员工关于Meta AI和Llama的交谈记录,其中一位工程师提到在公司笔记本上下载盗版内容感到不妥,这证实了Meta确实使用了盗版内容来训练AI。此外,还有对话暗示Meta首席执行官马克·扎克伯格(Mark Zuckerberg)默许了使用盗版材料的行为。

  证据表明,Meta从LibGen这一盗版书籍、杂志和学术论文的大型资源库中获取了内容。LibGen自2008年在俄罗斯创建以来,已多次卷入版权诉讼,但其实际运营者身份不明。据报道,Meta还从其他非法资源库中获取了内容用于AI训练。

  Meta则辩称,其使用公共材料的行为符合“合理使用”法律原则,该原则允许在特定情况下未经许可使用受版权保护的内容,但需具体情况具体分析。Meta还表示,其使用文本仅是为了进行语言统计建模并生成原始表达。

  值得注意的是,这并不是大型科技公司首次面临使用受版权保护内容训练AI模型的指控。去年的一项调查发现,苹果创建的OpenELM模型包含了来自超过17万个YouTube视频的字幕。虽然最初引发了对苹果使用受版权保护内容训练Apple Intelligence的担忧,但该公司后来澄清说,OpenELM是一个用于研究目的的开源模型,其数据库并未用于支持Apple Intelligence。

  苹果表示,其在iOS和macOS上提供的AI功能是在“许可数据”上训练的,包括为增强特定功能而选择的数据以及由网络爬虫收集的公开可用数据。值得一提的是,许多大型出版商,如《纽约时报》和《大西洋月刊》,已选择不与Apple Intelligence训练共享其内容。

版权所有,未经许可不得转载

(本文来自于手机中国)

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

0条评论|0人参与网友评论
最热评论
--------

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片