AI版权案首例？Meta被指控用盗版网站数据训练LLM|Meta|AI|网站数据_新浪科技

AI版权案首例？Meta被指控用盗版网站数据训练LLM

　　【CNMO科技消息】近日，关于人工智能的争议再度加剧，Meta被指控利用盗版网站的内容来训练其大型语言模型（LLM）Llama。外媒称，这起案件开创了科技公司因使用盗版内容训练AI而面临版权诉讼的先河。

　　2023年，Meta因涉嫌在LLM模型Llama的训练过程中使用盗版内容而遭到小说家理查德·卡德雷和克里斯托弗·金登的起诉。案件名为“Kadrey等人诉Meta平台案”，原告声称Meta未经授权使用了受版权保护的内容。

　　Meta曾向法院提交经过编辑的信息文件，但加利福尼亚州北区联邦地区法院的法官文斯·查布拉要求公开原始文件。这些文件展示了Meta员工关于Meta AI和Llama的交谈记录，其中一位工程师提到在公司笔记本上下载盗版内容感到不妥，这证实了Meta确实使用了盗版内容来训练AI。此外，还有对话暗示Meta首席执行官马克·扎克伯格（Mark Zuckerberg）默许了使用盗版材料的行为。

　　证据表明，Meta从LibGen这一盗版书籍、杂志和学术论文的大型资源库中获取了内容。LibGen自2008年在俄罗斯创建以来，已多次卷入版权诉讼，但其实际运营者身份不明。据报道，Meta还从其他非法资源库中获取了内容用于AI训练。

　　Meta则辩称，其使用公共材料的行为符合“合理使用”法律原则，该原则允许在特定情况下未经许可使用受版权保护的内容，但需具体情况具体分析。Meta还表示，其使用文本仅是为了进行语言统计建模并生成原始表达。

　　值得注意的是，这并不是大型科技公司首次面临使用受版权保护内容训练AI模型的指控。去年的一项调查发现，苹果创建的OpenELM模型包含了来自超过17万个YouTube视频的字幕。虽然最初引发了对苹果使用受版权保护内容训练Apple Intelligence的担忧，但该公司后来澄清说，OpenELM是一个用于研究目的的开源模型，其数据库并未用于支持Apple Intelligence。

　　苹果表示，其在iOS和macOS上提供的AI功能是在“许可数据”上训练的，包括为增强特定功能而选择的数据以及由网络爬虫收集的公开可用数据。值得一提的是，许多大型出版商，如《纽约时报》和《大西洋月刊》，已选择不与Apple Intelligence训练共享其内容。

（本文来自于手机中国）