AI 引发了一场关于网络爬虫的战斗_新浪科技

大多数人认为生成式 AI 会越来越好;毕竟，这是迄今为止的趋势。它可能会这样做。但有些人没有意识到的是，生成式 AI 模型的好坏取决于它们所训练的巨大数据集，而这些数据集并不是根据 OpenAI 和 Anthropic 等领先 AI 公司拥有的专有数据构建的。相反，它们由我们所有人创建的公共数据组成，包括任何曾经写过博客文章、发布过视频、在 Reddit 帖子上发表过评论或基本上在网上做过任何其他事情的人。

本文引用地址：

AI 研究人员志愿者团体 Data Provenance Initiative 的一份新报告揭示了所有这些数据的情况。这份题为《危机中的同意：AI Data Commons 的快速衰落》的报告指出，大量感到受到生成式 AI 威胁的组织正在采取措施隔离其数据。IEEE Spectrum 与数据来源计划（Data Provenance Initiative）的首席研究员 Shayne Longpre 就该报告及其对 AI 公司的影响进行了交谈。

Shayne Longpre 发表在：

 网站如何阻止网络爬虫，以及为什么

 消失的数据及其对 AI 公司的意义

 合成数据、峰值数据以及接下来会发生什么

网站用来阻止网络爬虫的技术并不新鲜 — 机器人排除协议于 1995 年推出。您能否解释一下它是什么，以及为什么它在生成式 AI 时代突然变得如此重要？

谢恩·朗普雷： Robots.txt 是一个机器可读的文件，爬虫（浏览 Web 并记录所见内容的机器人）使用它来确定是否爬取网站的某些部分。在网站主要使用它来指导 Web 搜索的时代，它成为事实上的标准。所以想想 Bing 或 Google 搜索;他们希望记录此信息，以便改善用户在 Web 上导航的体验。这是一种非常共生的关系，因为 Web 搜索是通过向网站发送流量来运作的，而网站希望如此。一般来说，大多数网站都能很好地与大多数爬虫配合使用。

接下来，让我谈谈对理解这一点很重要的一系列主张。通用 AI 模型及其令人印象深刻的功能依赖于用于训练它们的数据和计算规模。规模和数据真的很重要，很少有来源像 Web 那样提供公共规模。因此，许多基础模型都是在 Web 爬取的 [数据集] 上训练的。在这些流行和重要的数据集下，基本上只是网站和用于收集、打包和处理这些数据的爬虫基础设施。我们的研究不仅关注数据集，还关注来自底层网站的偏好信号。它是数据本身的供应链。

但去年，许多网站开始使用 robots.txt 来限制机器人，尤其是通过广告和付费墙获利的网站——想想新闻和艺术家。他们特别害怕，也许这是正确的，因为生成式 AI 可能会影响他们的生计。因此，他们正在采取措施保护自己的数据。

当一个网站设置robots.txt限制时，就像竖起了禁止擅自进入的标志，对吧？它不可执行。您必须相信爬虫会尊重它。

Longpre：这样做的悲剧在于，robots.txt 是机器可读的，但似乎没有法律效力。而服务条款可能在法律上具有可执行性，但不是机器可读的。在服务条款中，他们可以用自然语言阐明对数据使用的偏好。所以他们可以说，“你可以使用这些数据，但不能用于商业用途。但是在robots.txt中，您必须单独指定爬虫，然后说出您允许或不允许它们的网站哪些部分。这给网站带来了不必要的负担，需要在数以千计的不同爬虫中弄清楚哪些对应于他们想要的用途，哪些对应于他们不喜欢的用途。

我们是否知道爬虫通常是否遵守 robots.txt 中的限制？

Longpre：许多大公司都有明确说明其规则或程序的文件。例如，在 Anthropic 的案例中，他们确实表示他们尊重 ClaudeBot 的robots.txt。然而，这些公司中的许多公司最近也出现在新闻中，因为它们被指责不尊重robots.txt和抓取网站。从外部来看，目前尚不清楚为什么人工智能公司所说的和他们被指控做的事情之间存在差异。但是，许多使用爬虫的亲社会团体——小型创业公司、学者、非营利组织、记者——他们往往尊重robots.txt。他们不是这些限制的预期目标，但他们会被这些限制阻止。

在报告中，您查看了通常用于训练生成式 AI 系统的三个训练数据集，这些数据集都是根据过去几年的网络爬虫创建的。您发现，从 2023 年到 2024 年，此后受到限制的已爬网域数量大幅增加。您能谈谈这些发现吗？

Longpre：我们发现，如果你看一下特定的数据集，让我们以 2019 年创建的非常流行的 C4 为例——在不到一年的时间里，如果你尊重或遵守底层网站的偏好，它大约 5% 的数据已被撤销。现在 5% 听起来并不多，但当您意识到这部分数据主要对应于最高质量、维护最完善和最新的数据时。当我们查看此 C4 数据集中的前 2,000 个网站（这些网站是按大小计算的前 2,000 个网站，它们大多是新闻、大型学术网站、社交媒体和精心策划的高质量网站）时，前 2,000 个网站中 25% 的数据已被撤销。这意味着，尊重robots.txt模型的训练数据分发正在迅速从高质量的新闻、学术网站、论坛和社交媒体转向更多的组织和个人网站以及电子商务和博客。

如果我们要求某个未来版本的 ChatGPT 或 Perplexity 来回答复杂的问题，并且它从个人博客和购物网站获取信息，这似乎可能是一个问题。

Longpre：完全。很难衡量这将如何影响模型，但我们怀疑尊重robots.txt的模型的性能与已经保护这些数据并愿意对其进行训练的模型的性能之间存在差距。

但较旧的数据集仍然完好无损。AI 公司可以只使用旧数据集吗？这样做的缺点是什么？

Longpre：嗯，持续的数据新鲜度真的很重要。目前也不清楚robots.txt是否可以追溯适用。出版商可能会争辩说他们有。因此，这取决于您对诉讼的胃口，或者您也认为趋势可能会走向何方，尤其是在美国，围绕合理使用数据的诉讼正在进行中。最好的例子显然是《纽约时报》对 OpenAI 和 Microsoft 的反对，但现在有很多变体。关于它会走向何方，存在很多不确定性。

这份报告被称为《危机中的同意》（Consent in Crisis）。您为什么认为这是一场危机？

Longpre：我认为这对数据创建者来说是一场危机，因为很难用现有协议来表达他们想要的东西。此外，对于一些非商业性甚至可能与 AI 无关的开发人员来说，学者和研究人员发现这些数据越来越难访问。我认为这也是一场危机，因为它太混乱了。基础设施的设计并不是为了同时容纳所有这些不同的使用案例。由于这些巨大的行业发生碰撞，它最终成为一个问题，生成式 AI 针对新闻创作者和其他人。

如果这种情况持续下去，越来越多的数据受到限制，AI 公司该怎么办？为了继续训练巨大的模型，他们的行动会是什么？

Longpre：大公司将直接许可它。如果大量这些数据被取消抵押品赎回权或难以收集，对于一些大公司来说，这可能不是一个坏结果，它只会为进入创造更大的资本要求。我认为大公司将加大对数据收集管道的投资，并持续访问用户生成的宝贵数据源，例如 YouTube、GitHub 和 Reddit。获得对这些网站的独家访问权可能是一种明智的市场游戏，但从反垄断的角度来看，这是一个有问题的游戏。我特别担心由此可能产生的独家数据获取关系。

您认为合成数据可以填补空白吗？

Longpre：大公司已经在大量使用合成数据。合成数据既有恐惧，也有机遇。一方面，有一系列工作证明了模型崩溃的可能性，即由于对不良合成数据进行训练而导致的模型退化，随着越来越多的生成机器人被释放，这些数据可能会更频繁地出现在网络上。但是，我认为大型模型不太可能受到太大阻碍，因为它们具有高质量的过滤器，因此质量差或重复的内容可以被抽走。合成数据的机会在于，它在实验室环境中创建得非常高质量，并且它特别针对未开发的领域。

您是否相信我们可能处于峰值数据的观点？或者你觉得这是一个夸大其词的担忧？

Longpre：那里有很多未开发的数据。但有趣的是，很多都隐藏在 PDF 后面，因此您需要进行 OCR [光学字符识别]。许多数据被锁定在政府、专有渠道、非结构化格式或 PDF 等难以提取的格式中。我认为在弄清楚如何提取这些数据方面将投入更多资金。我确实认为，就容易获得的数据而言，许多公司开始碰壁并转向合成数据。

这里的趋势线是什么？您是否希望在未来几年看到更多网站设置robots.txt限制？

Longpre：我们预计，无论是在robots.txt方面还是在服务方面，限制都会增加。这些趋势线从我们的工作中非常清晰，但它们可能会受到外部因素的影响，例如立法、公司本身改变政策、诉讼结果以及来自作家协会的社区压力等等。我预计，数据商品化的加剧将导致该领域的更多战场。

您希望看到行业内的标准化与使网站更容易表达有关抓取的偏好方面发生什么？

Longpre：在 Data Province Initiative，我们绝对希望出现并采用新标准，使创作者能够以更精细的方式表达他们对数据使用的偏好。这将使他们的负担减轻得多。我认为这是不费吹灰之力的双赢。但目前尚不清楚谁的工作是制定或执行这些标准。如果 [AI] 公司自己能够得出这个结论并付诸实践，那就太神奇了。但是，标准的设计者几乎不可避免地会对自己的使用产生一些偏见，特别是如果它是一个公司实体。

此外，并非所有情况下都不应尊重偏好。例如，我不认为从事亲社会研究的学者或记者必须被取消赎回权，不能使用已经公开的机器访问任何人都可以自己访问的网站中的数据。并非所有数据都是平等的，也不是所有用途都是平等的。