为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3

为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3
2025年01月15日 16:22 IT之家

IT之家 1 月 15 日消息,周二,在一场涉及 Meta 的人工智能版权案件(Kadrey 诉 Meta 案)中,法院公开了 Meta 高管和研究人员的内部通信记录。这些文件显示,Meta 在开发其最新 AI 模型 Llama 3 的过程中,高管和研究人员将超越 OpenAI 的 GPT-4 视为核心目标,并在内部讨论中表现出极强的竞争意识。

Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 2023 年 10 月发给研究员 Hugo Touvron 的消息中表示:“说实话…… 我们的目标必须是 GPT-4。我们即将拥有 64,000 个 GPU!我们必须学会如何构建前沿技术并赢得这场竞赛。”

尽管 Meta 一直以开源 AI 模型著称,但其 AI 团队显然更关注如何超越那些不公开模型权重的竞争对手,例如 Anthropic 和 OpenAI。Meta 的高管和研究人员将 Anthropic 的 Claude 和 OpenAI 的 GPT-4 视为行业标杆,并以此为目标努力。

在内部讨论中,Meta 对法国 AI 初创公司 Mistral 的态度显得不屑一顾。Mistral 是 Meta 在开源领域的主要竞争对手之一,但 Al-Dahle 在消息中直言:“Mistral 对我们来说不值一提。我们应该能做得更好。”

当前,科技公司正竞相推出尖端 AI 模型,而 Meta 的内部通信进一步揭示了其 AI 领导层的高度竞争心态。在多次交流中,Meta 的 AI 负责人提到,他们在获取训练 Llama 模型所需数据时表现得“非常激进”。一位高管甚至在一封内部邮件中表示:“Llama 3 几乎是我唯一关心的事情。”

然而,这种激进的竞争策略也引发了法律问题。本案检察官指控 Meta 高管在匆忙推出 AI 模型的过程中,存在使用受版权保护的书籍进行训练的行为。Touvron 在一份消息中指出,用于训练 Llama 2 的数据集“质量不佳”,并讨论了如何通过优化数据源来提升 Llama 3 的表现。随后,Touvron 和 Al-Dahle 讨论了使用 LibGen 数据集的可能性,该数据集包含 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的受版权保护作品。Al-Dahle 在消息中问道:“我们是否有合适的数据集?有没有什么数据是你想用却因为某些愚蠢的原因无法使用的?”

IT之家注意到,Meta 首席执行官马克・扎克伯格此前曾表示,他正致力于缩小 Llama 模型与 OpenAI、谷歌等公司的闭源模型之间的性能差距。内部消息显示,公司内部为实现这一目标承受了巨大压力。扎克伯格在 2024 年 7 月的一封信中写道:“今年,Llama 3 已经能够与最先进的模型竞争,并在某些领域处于领先地位。从明年开始,我们预计未来的 Llama 模型将成为行业中最先进的。”

2024 年 4 月,Meta 正式发布了 Llama 3。这款开源 AI 模型在性能上与谷歌、OpenAI 和 Anthropic 的闭源模型不相上下,并超越了 Mistral 的开源模型。然而,Meta 用于训练模型的数据 —— 尽管扎克伯格据称批准使用这些数据,但其版权状态存疑,正在多起诉讼中面临审查。

MetaAI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片