为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3|Meta|AI_新浪科技

IT之家 1 月 15 日消息，周二，在一场涉及 Meta 的人工智能版权案件（Kadrey 诉 Meta 案）中，法院公开了 Meta 高管和研究人员的内部通信记录。这些文件显示，Meta 在开发其最新 AI 模型 Llama 3 的过程中，高管和研究人员将超越 OpenAI 的 GPT-4 视为核心目标，并在内部讨论中表现出极强的竞争意识。

Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 2023 年 10 月发给研究员 Hugo Touvron 的消息中表示：“说实话…… 我们的目标必须是 GPT-4。我们即将拥有 64,000 个 GPU！我们必须学会如何构建前沿技术并赢得这场竞赛。”

尽管 Meta 一直以开源 AI 模型著称，但其 AI 团队显然更关注如何超越那些不公开模型权重的竞争对手，例如 Anthropic 和 OpenAI。Meta 的高管和研究人员将 Anthropic 的 Claude 和 OpenAI 的 GPT-4 视为行业标杆，并以此为目标努力。

在内部讨论中，Meta 对法国 AI 初创公司 Mistral 的态度显得不屑一顾。Mistral 是 Meta 在开源领域的主要竞争对手之一，但 Al-Dahle 在消息中直言：“Mistral 对我们来说不值一提。我们应该能做得更好。”

当前，科技公司正竞相推出尖端 AI 模型，而 Meta 的内部通信进一步揭示了其 AI 领导层的高度竞争心态。在多次交流中，Meta 的 AI 负责人提到，他们在获取训练 Llama 模型所需数据时表现得“非常激进”。一位高管甚至在一封内部邮件中表示：“Llama 3 几乎是我唯一关心的事情。”

然而，这种激进的竞争策略也引发了法律问题。本案检察官指控 Meta 高管在匆忙推出 AI 模型的过程中，存在使用受版权保护的书籍进行训练的行为。Touvron 在一份消息中指出，用于训练 Llama 2 的数据集“质量不佳”，并讨论了如何通过优化数据源来提升 Llama 3 的表现。随后，Touvron 和 Al-Dahle 讨论了使用 LibGen 数据集的可能性，该数据集包含 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的受版权保护作品。Al-Dahle 在消息中问道：“我们是否有合适的数据集？有没有什么数据是你想用却因为某些愚蠢的原因无法使用的？”

IT之家注意到，Meta 首席执行官马克・扎克伯格此前曾表示，他正致力于缩小 Llama 模型与 OpenAI、谷歌等公司的闭源模型之间的性能差距。内部消息显示，公司内部为实现这一目标承受了巨大压力。扎克伯格在 2024 年 7 月的一封信中写道：“今年，Llama 3 已经能够与最先进的模型竞争，并在某些领域处于领先地位。从明年开始，我们预计未来的 Llama 模型将成为行业中最先进的。”

2024 年 4 月，Meta 正式发布了 Llama 3。这款开源 AI 模型在性能上与谷歌、OpenAI 和 Anthropic 的闭源模型不相上下，并超越了 Mistral 的开源模型。然而，Meta 用于训练模型的数据 —— 尽管扎克伯格据称批准使用这些数据，但其版权状态存疑，正在多起诉讼中面临审查。