万字对谈 Scale AI 创始人 Alex Wang：为什么数据才是大模型的最大瓶颈，而非算力？

来源：真格基金

Z Talk 是真格分享认知的栏目。

三个月前，为 AI 模型提供数据标注的 Scale AI 完成了新一轮由 Accel 领投的近 10 亿美元融资，估值飙升至 138 亿美元。这家拥有 OpenAI、谷歌、Meta 等众多 AI 巨头客户的独角兽公司，创始人是一位 1997 年出生的华裔少年。2016 年，还在 MIT 读大学的 Alexandr Wang 瞄准了 AI 模型领域仍属于空白的三大支柱之一——数据，辍学创办 Scale AI，并在三年之内跻身独角兽。这个在他口中「夏天随便玩玩的事」，迅速成长为了全球 AI 模型的「数据工厂」。

在近期 Alex Wang 的一次深度对谈中，他发表了自己对于模型性能瓶颈、获取数据途径的看法，以及 Scale AI 组织建设上的管理经验。

真格基金积极关注前沿科技创新动向，未来我们将持续带来全球顶尖创业者认知与深度思想内容，敬请关注。本次内容来自 20VC 播客，以下是编译全文。

核心内容

基础模型收益递减与数据瓶颈

- 为什么数据是当今模型性能的最大瓶颈，而非算力？

- 如何克服数据瓶颈？有哪些当前尚未使用的数据可以被捕获？

- 面临数据安全挑战，我们是否会在未来看到大公司回归本地部署？

- 为什么专有的、差异化的数据将成为企业的护城河？

Scale AI 的公关与人才招募经验
- 为什么「最好的公关就是没有公关」？
- 为什么每个创始人在今天都应该拥有自己直接的传播渠道？
- 为什么最有价值的员工，反而不是在公司最火爆时选择加入的员工？
与 Alex Wang 的快问快答
- Alex 听到的关于 AI 的最大误解是什么？
- 十年后 Scale AI 会是什么样子？Scale AI 会上市吗？
- Alex 从未被问到，但觉得应该被问到的问题是什么？

数据是当今模型性能的最大瓶颈

Harry Stebbings：Alex，很高兴能和你面对面交谈。非常感谢你今天的到来。

Alex Wang：很高兴来到这里。

Harry Stebbings：我们跳过那些你已经讲过很多遍的创业故事，直接切入正题。当我们谈论今天的模型表现时，你认为现在我们是不是到了一个随着算力提升，性能表现的提升却在递减的阶段？

Alex Wang：这很有趣。尤其是在当下，OpenAI 自 2022 年秋天开始就推出了 GPT-4。从那时开始，我们到现在还没有看到一个新的基础模型或比 GPT-4 更惊人的新模型，我们没有看到 GPT-4.5、GPT-5，或者有其他实验室推出比 GPT-4 好得多的模型，尽管算力投入增加了非常之多。

自从 ChatGPT 推出以来，你可以看到 NVIDIA 的收入图表，它在 GPT-4 推出后直线上升。NVIDIA 的数据中心收入从每季度约 50 亿美元猛增到现在每季度超过 200 亿美元。所以，在相同的时间内，已经有数百亿美元用于高端 NVIDIA GPU 的支出。GPT-4 是在 NVIDIA 上花费激增之前推出的，在这一时间段内，我们还没有看到自 GPT-4 以来的重大突破。

总体来说，我们看到算力投资现在呈指数级增长。但是我们作为一个社区和行业，还在等待下一个伟大的模型。

Harry Stebbings：所以你认为我们已经达到了性能的高点，在平台期的停滞中等待吗？你觉得这只会持续几个月，还是像自动驾驶一样？我们看到自动驾驶的性能停滞了好几年，直到最近才又有了突破。

Alex Wang：AI 模型有三个组成部分：算力、数据和算法。

AI 的历史是这三个支柱一起发展而建立起来的。你需要大量的计算能力，也需要像 Transformer 或 RLHF 这样的算法进步，或者未来的算法进步。你还需要数据这一支柱来支持它。我认为我们最近看到的性能停滞可以用遇到数据瓶颈来解释。

GPT-4 是一个基本上训练了整个互联网并使用了大量计算能力的模型。我认为过去几年行业所做的很多事情是大幅度提升计算，但没有同时建立其他两个支柱。所以我们需要更多的算法改进，但重点是我们需要确保有更多的数据来支持这些改进。

Harry Stebbings：你提到的数据上的瓶颈是什么意思？我们如何克服？

Alex Wang：简单来说，我们已经用尽了所有容易获取的数据，包括互联网上的所有数据和常见的爬虫数据。

Harry Stebbings：所以容易获取的数据是指社交媒体上的内容，任何不收费的内容，以及任何容易且免费爬取的内容。

Alex Wang：容易且免费爬取的内容、通过下载获取的内容，总之就是任何已经记录下来并且能够从开放互联网上简单获取的内容。之后，AI 的很多改进都来自于预训练的进步。这基本上就是训练这些模型，让它们非常擅长模仿互联网内容。现在，这些模型在模仿互联网内容方面做得非常好，甚至超过了人类。

但是，当我们去想象 AGI 或强大的 AI 系统时，我们想要的不仅仅是模仿互联网内容。我们需要的是能够执行任务、解决难题、与人类合作应对日常问题的 AI 系统，但我们无法仅通过互联网数据来实现这样的想象，并且我们已经几乎用尽了互联网上的数据。

Harry Stebbings：为什么我们无法仅通过互联网数据来实现这样的 AI 系统？当我们让有效的 AI agent 或软件完成工作，而不是仅仅销售工具时，为什么现有的数据无法让 AI 完成从工具到工作的过渡？

Alex Wang：简单的答案是，当人类在做更复杂的任务时，他们经历了很多思考过程，但这些并没有写在互联网上。比如，一个银行的反欺诈分析师（fraud analyst）在分析可疑交易时，需要分析各种不同的数据片段，并运用推理和人类智慧来做出决定，比如看了一些数据然后基于此推断出了某些结论。但这个过程并没有写在互联网上供模型爬取。可以说，今天推动经济的所有推理和思考都没有写在互联网上，所以如果你只是利用互联网数据训练模型，它是无法从这些数据中学习出来的。

Harry Stebbings：那么我们要如何编码和捕获那些尚未被编码的数据呢？比如你之前提到的欺诈分析师的思考过程、分析以及内部会议中的讨论，这些数据都没有被转化为结构化的数据，在任何数据集中。我们如何捕获这些数据来进行后续工作呢？

Alex Wang：我认为，我们现在需要的是前沿数据（frontier data）。我们需要拥有丰富的前沿数据来突破现有的数据稀缺、面临数据瓶颈的限制。这种前沿数据包括复杂的推理链、讨论、模型代理链、工具使用等关键组件，这些数据都需要被封装到前沿数据中，以提升模型的能力。

GPT-4 的数据量级为 1PB

而摩根大通的专有数据集有 150 PB

Harry Stebbings：我们如何捕获这些数据呢？

Alex Wang：主要有三个途径。首先，很多企业内部都拥有大量的专有数据，但由于种种原因，这些数据都没有上传到互联网上。摩根大通的专有内部数据集是 150PB，而 GPT-4 是在一个不到 1PB 的互联网数据集上训练的。大型企业内部存在的数据量绝对是天文数字。

因此，一种获取途径是挖掘所有这些现有的企业数据，并发掘其中所有的优质信息。这些数据量非常巨大，我们可以挖掘这些现有的企业数据，获取其中的价值。

其次，虽然这些数据是专有的，但我们可以将其定制交付给需要的客户。最后，我们需要通过一系列的过程来提炼和使用这些数据，以解决企业面临的实际问题。

Harry Stebbings：但他们永远不会将其开源，对吧？这些都是专有的。

Alex Wang：没错。这只能是每个企业经历这样一个过程，比如我的企业有一系列非常重要的问题，然后我需要挖掘我所有现有的数据并提炼它们，以用于 AI 系统来解决企业自己的问题。

Harry Stebbings：一开始我们提到了收益递减的问题，前几天我和一位重要的 CTO 交谈过，他们认为真正的突破在于我们是否能真正解决「推理」这一技术问题。你怎么看待我们解决推理问题的能力，以及数据在帮助我们应对这个问题方面的影响？

Alex Wang：我认为，这些模型在被大量数据训练的基础上非常擅长推理。然而，人类智能和机器智能存在很大的差异。人类具有非常通用的智能形式，能够适应环境、自我调整、了解周遭发生了什么，而今天没有任何 AI 系统能够做到，我们必须意识到这是一个限制。

这意味着，对于我们希望这些模型表现良好的任何情况，我们都需要有该情况或该场景的数据，我们需要为模型提供足够的数据来支持其在各种情境下的推理能力。实际上，如果模型拥有足够的数据，它们将能够在各种情境下表现出色。

所以，解决推理差距的问题可能有两种方法，一是建立某种通用的推理能力，一旦建成将会是一个巨大的突破；二是从数据角度让每一个场景下都有足够的数据来支持模型的训练，你只需要在所有这些场景中用数据淹没它们，就会得到推理能力很好的模型。

Harry Stebbings：当我们看到像摩根大通、高盛或任何大型企业都掌握着庞大数据时，我们怎样才能从数据稀缺的环境过渡到数据丰富的环境呢？这些数据由于其专有性质，并不会轻易流向广义的模型，而这些模型原本可以帮助世界、人类或实现任何突破性的进展。我们怎样才能实现从数据稀缺到数据富足的转变？是通过创造合成数据吗？我们该如何思考这个问题？

Alex Wang：是的，我认为你的观点很对，我们需要产生新的数据。为了从 GPT-4 发展到 GPT-10，我们需要找到新的前沿数据的生产方式。以芯片为例，我们需要建造更多的晶圆厂，提高分辨率、制造出纳米级的元件。谈及计算能力的提升，我们很自然地会想到增加生产资料，但我认为在数据上我们没有想到要增加生产资料，我认为需要改变这种观念。

生产数据的过程其实是一种混合的人工合成过程。我们需要算法来完成大部分繁重的数据合成工作，但同时也需要人类专家的输入和指导，以便在 AI 系统遇到问题或者遇到特殊情况时提供帮助。

自动驾驶的规模化就很好地说明了这一点，很多时候都是依赖安全驾驶员的。在车里配备安全驾驶员，当汽车出现问题时，安全驾驶员可以接管控制，AI 系统也需要这样的设置。我们需要 AI 模型来生成大量数据，同时也需要人类在必要时接管并调整模型，以确保数据的质量。

Harry Stebbings：这种人在当今的组织结构中会是什么样的？我们是否为这些 AI 的「拯救者」创造了新的角色？

Alex Wang：是的，我们可以称他们为「AI 训练师」（AI trainers）或「AI 贡献者」（AI contributors）。我很想说，向 AI 贡献数据的工作实际上是人类可以拥有的最具影响力的工作之一。比如说，我是一名数学家。我可以选择独自研究纯数学，这是我生活的一条轨迹，但我也可以选择利用我所有的技能、才能和智慧来帮助 AI 模型变得更聪明。

比如说，我可以让 GPT-4 在数学方面变得更聪明一些。如果我把这一点改进应用到 GPT-4 的每一次使用中，考虑到所有将使用 GPT-4 的数学学生、公司和开发者，那将产生巨大的影响。因此，作为人类专家，你有能力通过生产数据来帮助改进这些模型，从而对整个社会产生影响。

我们看到的是，对于科学家、数学家、医生以及世界上的所有人类专家来说，这是一个非常令人兴奋的提议，他们可以把自己的能力、智慧、训练等所有这些都传输到一个模型中，而这个模型将对整个社会产生影响。

Harry Stebbings：人们经常说，数据治理中最大的挑战实际上就是数据的结构和清晰度。那么该如何看待数据的结构？比如说，虽然我不知道具体情况，但我推测摩根大通 150PB 的数据并没有完美地结构化，并能让许多模型能够高效地摄取。我们应该如何看待这个巨大的数据集的结构化问题和挑战？

Alex Wang：我认为这是一个需要两方面并行努力的情况。一方面是挖掘现有数据，这无论如何都会是一次性完成的工作。从挖掘所有现有数据中，你将获得一次性的收益，这可能是非常有意义的。

Harry Stebbings：你认为在五年内，每个人都会内部挖掘他们最大的数据源吗？

Alex Wang：我不认为每个人都会，但最先进的公司肯定会。然后我们将到达一个仍然需要改进模型的地步，最终这一切都归结为数据生产。你需要什么样生产资料来服务你下一步的数据生产，就像你在芯片领域的前瞻性生产一样。

Harry Stebbings：另一种形式呢？

Alex Wang：另一个是推动数据生产。数据挖掘与推动数据生产是数据来源的核心方向。从更广泛的角度来看，我认为很多 AI 进步的瓶颈在根本上更多是由于数据，随着 NVIDIA 继续制造价值数千亿美元的芯片，如果我们能够在获得越来越多芯片的同时，按比例生产相应数量的数据。如果我们能够同时生产这两者，那么我们将获得超越想象的更厉害的模型能力。

Harry Stebbings：所以当我们考虑增加数据的供应时，我们实际上可以采取什么方法呢？我想到的是 Limitless 的 Dan Siroker，他基本上通过这个新的硬件设备，可以记录你说的和做的每一件事，并且它会生成你自己的个人 AI，因为它拥有你一天中所说的所有内容。在我心中，这是一种新的数据创建形式。你如何看待增加数据的供应？

Alex Wang：可能主要有两个方面。一方面是像 Limitless 这样的努力，这基本上是更多的纵向数据收集，收集世界上自然发生的更多事情。另一方面在工作场所，可能会有某种对类似「正在使用什么应用程序」的持续数据收集，使用应用程序的顺序是什么，把一个东西从哪里复制到另一个地方。

Harry Stebbings：你有很多这样的 RPA 和许多 UiPath 流程来完成这种任务，我很习惯于这种方式。

Alex Wang：是的。这是流程挖掘，SaaS 中的一个术语，基本上就像是对现有企业流程的持续收集。然后是消费者的角度，有点像你所提到的，对你自己生活的纵向视角的收集，比如戴一个 Meta Ray-Ban。然后就是必须致力于让人类专家与模型合作来产生前沿数据。

我所提到的两种途径，无论是企业流程挖掘，还是消费者数据收集，这些都将产生有价值的数据集，但它们不会产生实际推动模型前进的数据。

因为要推动模型提升，你需要非常复杂的数据，这就是你需要代理行为、复杂推理链的地方，这就是你需要高级代码数据或可能的高级物理、生物或化学数据的地方，这些才是真正需要推动模型边界的东西。

我认为这是一个需要全球基础设施级别的努力，我们需要使之发生。就像我认为我们需要考虑如何让世界上的专家与模型合作，帮助产生将成为世界上最好的科学家的 AI 系统，或者成为世界上最好的代码员或数学家。

专有的、差异化的数据

将会成为企业的「护城河」

Harry Stebbings：当我们考虑到模型的商品化，我们该如何思考对这些数据源的专有访问权呢？以前有人对我说过 OpenAI 的模型并不一定更好，他们只是能更好地访问数据，他们购买了更多的数据等等，数据是他们过去表现更好的主要原因。但我们会看到一个模型获得其他模型没有的数据访问权吗？我们该如何从模型的角度思考对数据的公平公正的访问？

Alex Wang：我认为你的观点很对，如果你考虑一下这些不同的模型提供商之间的竞争领域，我认为数据实际上是出现真正持久竞争优势的主要支柱。

因此，如果考虑他们在大型语言模型（LLM）竞争中的护城河在哪里，我认为数据是少数几个可以产生可持续壁垒的领域之一。因为算法是 IP，但总会在某个时候被整个行业了解；你可以拥有比别人更多的计算资源，但别人只需花更多的钱就可以购买同样的计算资源。而数据是仅有的可以真正产生长期可持续竞争优势的领域。

Harry Stebbings：我同意，当你查看 OpenAI 的一些协议时，他们显然与《金融时报》合作并获得了《金融时报》历史资料库的访问权，我认为他们实际上与 Axel Springer 也进行了不少合作。这是许多其他模型无法获得的访问权，这让他们在任何相关查询中都能获得更优质的内容。

Alex Wang：没错。我认为这是开始将数据视为护城河的一种思维方式。《金融时报》、Axel Springer 是第一个迹象，但在未来，这些实验室会考虑很多问题，比如，我要用什么数据来与竞争对手区分开来？我将如何生产这些数据？以及这会创造什么长期持久的优势？

我们一直在谈论围绕模型商品化的数据，实际上我预计，我们将看到公司开始制定数据战略，从而随着时间的推移在市场上创造更多的差异化。

现在在旧金山，研究人员和大公司的 CEO 们吹嘘他们有多少 GPU，他们对 AI 的重视程度的最大指标就是他们拥有多少 GPU。

但我认为在未来，他们会吹嘘自己能够访问哪些数据，生产了多少数据，以及对不同数据源的独特权利。我认为这实际上将成为未来竞争的主要领域。

Harry Stebbings：鉴于数据战略是一个可能在不同方面取得胜利和竞争的潜在因素，你是否认为随着时间的推移我们很难看到这些模型的商品化？

Alex Wang：未来有两种可能。一种是，即使数据战略很快也成为商品化的东西，不同的实验室也会互相抄袭，或者最终都朝着同一个方向发展。

Harry Stebbings：完全同意，特别是与许多内容生产商合作，他们不会与一个模型签订独家协议，而与其他模型不签。

Alex Wang：是的，不同的实验室需要制定战略来生产他们独特的数据集。比如说，Anthropic 正专注于很多企业用例，也许他们需要制定一个数据战略使他们能够获得极大差异化的新数据访问权，以支持这些企业用例；或者也许 OpenAI 与 ChatGPT 需要制定一个独特的数据战略，让他们能够利用他们拥有这么多用户和这么大影响力的事实。未来，各个实验室将需要依靠他们获得专有和差异化的数据的能力。

Harry Stebbings：你认为我们会看到回归本地部署的趋势吗？当我们想到摩根大通 150PB 的数据时，我不知道他们是否会愿意把所有最敏感的数据都扔到云端。我们会看到大型企业在本地部署和在本地工作的模型吗？

Alex Wang：这是一个非常有趣的问题。当我们与这些大型企业和企业内的领导者交谈时，他们会很快意识到，他们的企业数据可能是他们在 AI 世界中唯一的竞争差异化因素。他们会非常谨慎，如果他们达成一项交易，而他们的所有数据不知何故被模型开发者获取，或者以某种方式共享，那么他们可能会葬送掉企业的整个未来。

实际上，我认为无论是开源模型、Llama 模型、Mistral 模型还是其他模型，都存在非常大的机会。这些模型可以在本地运行，企业可以获取并根据自己的数据进行定制，因而它永远不需要回到模型开发者或云端等任何地方，我认为这里有巨大的未被满足的需求。这实际上是大多数认真对待的企业将要走向的方向：我需要确保我的数据不会以任何方式被用来提高我的竞争对手的能力。

未来的定价方式将基于使用量

Harry Stebbings：我认为在未来五年内，AI 服务实际上将比 AI 模型创造更多的收入。我们实际上看到 Accenture 的生成式 AI 收入为 24 亿美元，而 OpenAI 的收入显然为 20 亿美元。你怎么看待这个问题，Scale AI 如今与一些大型企业合作，对大型企业来说，AI 的学习和接纳曲线是一个挑战。在我们扩大 AI 教育曲线的过程中，你认为提供这部分服务是否会成为公司未来几年的核心业务？

Alex Wang：首先，人工智能肯定会带来很多价值，但价值获取在哪里是一个关键问题。安迪·格罗夫的《高产出管理》中有几章是关于英特尔的，一开始我们认为它是最大的价值获取的地方，但后来我们意识到，价值将在堆栈的其他部分，不断迁移。我大约在十年前读过它，我当时觉得这很奇怪，而现在在人工智能领域，你再次看到了这一点，因为它是如此新颖、新生，堆栈中确切价值的产生在不断变化。

我认为模型本身存在很多竞争，我不知道模型本身到底有多少价值，但我对模型之上和模型之下的所有内容都很有信心，那将会很有价值。对于基础设施，NVIDIA 是今天建立在 AI 基础上的最大公司，他们是市值全球 Top 的公司。NVIDIA 是在模型之下的公司，而在模型之上，所有这些应用程序和服务都将建立在它的基础上。

Harry Stebbings：有一个问题是，我们现在确实有像 Notion AI、Box 一样的公司，但你看到他们的增长数字了吗？Salesforce 等的增长现在都只是个位数。这些功能的商品化确实将为我们带来更好的产品，但我不确定是否能通过提高价格来从中获得收益，你怎么看待这个问题？

Alex Wang：是的，我们对这个问题的看法来源于一篇在软件领域广为流传的文章。我认为这是一个故意引起争论的观点。

Harry Stebbings：对于那些没有读过这篇文章的人，你能概括一下它的核心观点吗？

Alex Wang：文章作了一个非常巧妙的比较，他将今天的软件公司与社交媒体兴起前的传统媒体公司进行了比较。在媒体的旧时代有很多了不起的、高端的媒体公司，里面有专家生产非常有差异化的内容，但随后被社交媒体和互联网广泛颠覆，因为内容分发成本突然大幅下降。媒体消费的世界变成了一个非常广泛和多样化的集合体，你会消费任何你觉得有趣的人制作的内容，这更像是按需消费，而不是大型媒体生产者的封闭花园。

这基本上与即将发生在软件领域的情况相似，现在的企业生活在一个由少数软件提供商组成的封闭花园中。现在随着生成式 AI 和所有这些其他趋势的发展，他们将拥有这些不同的应用程序和特定解决方案的集合体，以及通往各种软件提供商集合体的门户，我们将从当前较小数量的封闭花园 SaaS 应用程序的世界转向更加分散的宇宙。

Harry Stebbings：你同意这个观点吗？

Alex Wang：这是故意在引起争论，但我认可其中的一点，我确实认为企业和整个世界都将要求更高水平的定制。第一家朝这个方向发展的科技公司是 Palantir。他们长期以来一直名声不好，因为每个人都认为 Palantir 只是一家咨询公司，但 Palantir 的认为自己要做的是进入企业，准确了解他们的问题是什么并帮助他们构建完美的应用程序，将他们的所有数据连接起来。如果能做到这一点，那么我们构建的东西将比任何其他软件提供商能够提供的产品更有价值。

显然，他们在生成式 AI 和所有将使其更加可行的工具出现之前就已经这么做了。我确实认为这是一个世界发展的趋势，尤其是现在软件生产成本和软件创建成本大幅下降，我们将走向一个世界，越来越多企业使用的软件将针对特定的问题进行定制和专门构建。

Harry Stebbings：这对大企业的工程团队的组织意味着什么？他们规模会缩小吗？他们会专注于不同的事情吗？只是拥有世界上最好的 prompter 团队吗？这对工程团队组织架构的改变有什么影响？

Alex Wang：是的，我认为软件工程总体上将发生巨大变化。开发人员今天花费大量时间做的很多事情，随着模型在编码方面变得越来越好，他们将来不需要再花时间了。但他们所做的工作中有很大一部分是不可替代的。

随着时间的推移，我认为尤其有价值的是，我客户的问题是什么？或我需要解决的问题是什么？然后将这些问题转化为工程问题，接着由 AI 工程师来解决。

Harry Stebbings：大家都说我们将看到软件领域按使用产品或服务的用户数量定价（per seat pricing）的终结，你认为在下一波软件中，我们会在多大程度上看到 per seat pricing 的终结？特别是从数据的角度来看，你可能会看到一个更基于使用量的定价模型，你认为这真的会取代 per seat pricing 吗？

Alex Wang：Per seat pricing 在未来没有意义的原因是，在当今的企业中大部分的生产工作都是由员工完成的。但在未来，你可以想象越来越多的工作将由 AI agent 或 AI 模型完成，那么 per seat pricing 就真的没有意义了。

作为软件提供商、解决方案提供商，你希望确保你捕捉到了你提供给人们的价值，以及你的 agent 或 AI 系统产生的价值。这将使世界的定价方式从感知定价转向基于使用量的定价。

10 年后，

基础模型将更加是一场巨人的对决

Harry Stebbings：我最担心的一件事是监管条款抑制创新，比如来自消费者数据保护法和对数据访问的不必要监管。你认为我的担忧有道理吗？你如何看待数据访问的监管问题？

Alex Wang：这是一个非常重要的问题，我们在欧盟看到的确实是对数据非常严格的监管方法。我个人认为，更宽松的数据监管与自由民主并不矛盾，更自由的数据访问条款与自由民主是非常兼容的。社会需要找出正确的平衡，并找到解决这个问题的方法。

但我认为这是一个非常重要的问题，因为美国在确保不减缓芯片的生产方面已经付出了巨大的努力，包括监管层面的。我们需要对数据采取类似的视角，从政策角度来看，无论是在美国还是在英国，我们需要考虑如何确保国家不会在未来的数据生产中束缚自己的手脚。

Harry Stebbings：那么支持数据的监管立场会是什么样子？

Alex Wang：首先，我认为有一些大型数据集不会给特定参与者带来专有优势，这些数据集需要被集中起来，并向整个行业开放。

举些简单的例子，比如说航空航天领域的安全数据，这显然是个热门话题。但是为了推动整个行业的进步，航空航天领域的安全数据应该被集中汇总。或者我之前提到的金融服务中的欺诈和合规问题，这些数据也应该被汇总起来，以建立更强大的能力。所以我认为，在整个工业领域中，应该有一定程度的数据汇总，以推动整个行业的进步。

而且我认为，在许多面向消费者的领域，我们需要解决许多现有的限制以确保他们不会阻碍 AI 的进步。

举例来说，医疗保健领域的 HIPAA 法案（健康保险流通与责任法案）以及所有的个人身份信息（PII）和其他限制目前或多或少会阻止患者数据被用于训练人工智能模型。

但我认为，作为文明社会我们确实希望从所有现有的医疗数据中学习如何治愈人类疾病。因此我们需要找出解决方案，比如，我们要如何明确匿名化条款或者找出一种明确的方式，让我们能够利用现有的患者数据来改善未来的健康状态。

Harry Stebbings：你认为 10 年后基础模型层面会是怎样的局面？谁是独立的，谁被收购了？

Alex Wang：我们所看到的基础模型竞争的核心是成本，现在成本非常高昂。这些模型的费用已经从数亿美元增加到数十亿美元，甚至可能达到数百亿美元。我认为在 10 年后，它们的成本可能会达到数百亿甚至数千亿美元。

没有多少实体拥有那么多自由支配的资本来投资这些 AI 模型。所以，随着时间的推移，AI 工作，特别是基础模型工作，将逐渐围绕国家或大型科技公司展开，这些将是唯一可能资助或负担这些大规模 AI 项目的实体。

到那时将更加是一场巨人之间的对决。

Harry Stebbings：我们会看到所有小型玩家被大型云服务提供商收购，比如谷歌、亚马逊、NVIDIA 等，并被它们整合到现有的解决方案中吗？

Alex Wang：我认为一些合作关系的发展会很有趣，比如 OpenAI 与微软、Anthropic 与亚马逊的合作关系。而这些合作关系在长期会如何发展是这个技术时代最有趣的问题之一。

「最好的 PR 就是没有 PR」

Harry Stebbings：你曾提过一个精彩的关于公关 PR 的观点：「最好的 PR 就是没有 PR。」这是什么意思？

Alex Wang：从本质上讲，传统新闻业并不特别有利于建设一个伟大的公司。

具体来说，很多传统新闻都是以点击量为导向的。所以，传统的新闻引擎会在你上升的时候把你捧起来，以此创造点击量，然后在你下降的过程中把你撕下来，再次产生点击量。

这与像 20VC 这样的直接渠道形成鲜明对比，通过直接的渠道，创始人和公司能完整传达他们的信息并解释他们正在做什么。

Harry Stebbings：但从另一个角度来说，我不在乎点击量，虽然这么说对传统媒体有点不公平。是的，我们有赞助商，不过即使没有，我们仍然会做这个节目。我不做耸人听闻的标题，我不会为了吸引眼球而夸大其词，因为我不是仅仅为了优化点击量。

Alex Wang：没错，你是为了真正向听众教育和解释正在发生的事情。

Harry Stebbings：不过这似乎有点不公平。你能想象如果有人说：「嘿，我要做 Scale AI，但我不在乎我们是否亏钱。」你会说：「我怎么能竞争过他呢？」

Alex Wang：是的。但我确实觉得比起面对媒体，在国会作证时受到的待遇更公正。这听起来很荒谬，但我认为我们正处于很多传统媒体不正常的状态中，这个系统本身由于这种非常点击量导向而非真正教育的方法，几乎没有办法对公司做到完全公正。

因此当务之急是公司自身要通过直接渠道例如播客等正确讲述他们的故事，在这些渠道中，他们的信息不会被篡改。

Harry Stebbings：我完全同意，这就是为什么今天的建立一个品牌比以往任何时候都更重要，因为如果你不拥有自己的分发渠道，它就会被扭曲。这改变了你的策略吗？

Alex Wang：是的。关于如何直接传递信息、什么是传递和解释我们正在做的事情最纯粹的方式，我们也思考了很多。

我们现在的对谈就是一个很好的例子，你问我一个问题，我会准确地回答你我所相信的，这将传达给你的听众和观众，我认为这是传递信息的最纯粹形式之一。

Harry Stebbings：人们常犯的一个大错误是，他们试图为公司建立直接渠道，但大众不关注公司规模，他们关注的是 Alex Wang。用人格来建立粉丝群体比用公司来建立粉丝群体要容易得多。

Alex Wang：是的，我认为很少有公司能做到这一点。OpenAI 就是其中之一，我认为 OpenAI 作为一个实体和品牌有很多意义。

Harry Stebbings：确实如此，但 Sam Altman 与 OpenAI 在社交媒体上受关注度上，前者受到的关注度明显更高，人们现在比以往任何时候都更热衷于崇拜个人魅力。

这种崇拜不仅限于科技界，比如梅西、《芭比》电影中的玛格特·罗比，个人在组织或运动中的明星化推动了一切。

Alex Wang：我认为这反映了人类深层次的需求。我们作为人类，天生就有很多机制来理解个体，我们有能力理解个体，但很难理解一个组织。

Harry Stebbings：那么创始人应该关心传统公关吗？他们应该在乎在传统媒体上的曝光吗？

Alex Wang：我认为不应该。我们现在正处于一个创始人不必过于关注传统公关的时代，他们应该思考自己能提出什么有趣的观点，以及以何种最纯粹的方式传达这些观点。

Harry Stebbings：你觉得媒体在什么时候试图不公正地诋毁你？

Alex Wang：几乎可以说，我们经历过迅速的崛起，2019 年我们成为了独角兽公司。在那之后的几年里，一切似乎都顺风顺水。然而从 2022 年开始，整个媒体叙事开始转向拆解科技公司。

这在某种程度上是公平的，许多科技公司获得了非常高的估值，科技界充满了兴奋，但随后市场崩盘。从 2022 年开始，特别是对我们而言，媒体的基调完全转变了，媒体开始指向像我们这样的公司或许多同行所犯的错误，而不是试图保持平衡的视角。

「Scale AI 800 人，

我仍会审批每一位新员工的录用」

Harry Stebbings：关于通过激励驱动结果，之前你说过一句话：「为什么招到真正关心工作和公司人比听起来要难？」这是什么意思？你在招聘时是如何考虑这一点的？

Alex Wang：这听起来很简单，但如果你雇佣的是这样的人，他们真的会非常关心自己的工作成果、工作质量，真的非常关心组织，确保公司有影响力。这意味着他们会愿意对每一个细节都精益求精。如果遇到困难或障碍，他们会不惜一切努力克服。

这就是创业公司的工作原理。这些小团队中的每个人都比大公司里的普通员工更关心工作，关心程度可能是普通员工的十倍甚至百倍，因此你最终会解决比大公司更多的问题。

Harry Stebbings：你们公司目前有多少人？

Alex Wang：我们大约有 800 人。

Harry Stebbings：800 人。你们现在已经发展到了一个相当大规模的公司。就好比球队只招 A+ 或 A 级别的运动员，只招聘顶尖的、一流的人才确实更难了，因为一流人才本身就是稀缺的。你们能拥有 800 名 A 级别的球员吗？

Alex Wang：我认为答案是肯定的。

我们在内部经常讨论的如何组建一个真正的小而精的团队，只招聘顶尖中的顶尖。这涉及到招聘流程，对于公司的目前阶段来说，我仍然会亲自审批每一位新员工的录用。我会直接面试或查看面试反馈，了解我们录用的每一个人，以确保我们保持极高的标准。

Harry Stebbings：在招聘新员工时，你有多大的可能性会反对团队的推荐？

Alex Wang：平均 25%到 30%，这个比例相当高。通常是因为新上任的招聘经理可能需要校准招人标准，或者是因为各种特殊情况。

但对我来说，我是公司的创始人，我见过所有人的加入，也见过哪些人成功，哪些人失败。我几乎像是一个算法，已经开发出了最精细的数据集，来理解什么样的人让 Scale 能够成功、理解顶尖和优秀的区别。

作为创始人，我的职责是确保我们作为一个组织，能够充分利用过去八年在组织中学到的所有知识和经验，并将它们传承下去。

Harry Stebbings：你在管理或领导方面犯过的最大错误是什么？比如我的一个错误是，我认为人们会因为恐惧或自由而行动。当你招聘某人时，有些人会因为「你必须表现出色」而行动，而另一些人则是因为「我相信你，我尊重你，做你能做到的最好」。你必须识别出每个人属于哪个阵营，然后希望，如果他们的技能到位，他们就能发挥出最好的水平。我希望我在创业之初就知道这一点，但我没有，我只是试图让每个人都因为恐惧而行动。有哪些你希望当初就知道的事情，以及你犯过什么错误？

Alex Wang：最大的一个错误实际上是在 2020 - 2021 年那段时间，我认为公司的超高速增长意味着团队也必须超高速增长。在那几年里，我们像许多科技公司一样，团队规模每年都在翻倍或三倍增长。2020 年，我们有大约 150 人。到 2022 年底，我们已经超过了 700 人。这是疯狂的招聘，团队超高速增长。但我发现，当你如此快速招聘时，就不可能做到我们刚才讨论的保持高标准和团队内部的卓越。

Harry Stebbings：你是否即刻地看到了这个标准在降低？

Alex Wang：这有点微妙。你招聘了这么多人之后，可能会在接下来的一年或六个月后注意到这一点。你会慢慢注意到，组织中的一些挑战，过去能够轻松应对和解决的问题，现在却逐渐固化，我们无法绕开它们。

所以你会注意到，从 2022 年底我们 700 人到现在的 800 人，团队规模基本保持不变。但公司的收入却大幅增长。

Harry Stebbings：有趣的是，公司会有品牌转折点。它们会走红，会遇冷，然后又会再次走红。你明白我的意思吗？

Alex Wang：明白。

Harry Stebbings：从外界看来，感觉 Scale AI 又火了。

Alex Wang：这确实是一件很有趣的事情，我也问过 Patrick Collison（Stripe CEO）这个问题。Stripe 是一家了不起的公司，在其生命周期的大部分时间里，我认为它一直是硅谷的标志性公司之一。

我问他是否认为作为标志性的公司对他们整体的招聘都有好处。他提出了一个有趣的观点：Stripe 所招聘到的最优秀的人才，是那些无论 Stripe 是否热门，都会加入 Stripe 的人才。这些人才往往不走寻常路，但他们却是 Stripe 能够招聘到的最佳人选。而很多因为 Stripe 是硅谷最热门公司而加入的人，出于各种原因，并不一定是最有价值的员工。

普遍的观点和叙事是，你想成为最热门的公司，以吸引最优秀的人才，从而实现超高速增长，进而持续成长。但我认为这往往非常困难。更重要的是如何建立一个能够自我维持的人才生态系统，这个系统能够保持很高的标准，始终寻求最优秀的人才，而且无论公司是否热门，都能独立运作。因为正如你所说，你会有热门的时候，也会有不热门的时候，热门与不热门是交替出现的。你需要这个人才生态系统能够自我维持，独立于公司的热度，以推动公司做到最好。

Harry Stebbings：我认为这也取决于职能。很多市场向职能倾向于聚集在一起，如果一个品牌炙手可热，最棒的销售团队会被吸引而来，你能集中一批出色的销售人员，特别是当你扩大地域范围时。

我想到了 OpenAI 在伦敦的进入市场（Go-to-market）团队。他们非常出色，是伦敦最好的团队之一。这是因为他们有一个了不起的品牌。你明白我的意思吗？所以这取决于你离核心有多近，以及你处于哪个职能领域。

Alex Wang：是的，我同意。但如果你看看 OpenAI 的核心技术开发，其中很多仍然是由那些在 OpenAI 成为最热门公司之前就加入的人推动的。

另一家经历过这种情况的公司是 Airbnb，由布莱恩·切斯基（Brian Chesky）领导。他在疫情后公开表示，他突然意识到必须重建整个公司。他大幅缩减了团队规模，加大了对人才密度的投入，然后组建了保持小规模的团队。我认为他们现在甚至已经成为整个科技行业人均盈利能力最强或最强的公司之一。因为他意识到，他不需要继续扩大团队规模就能实现财务收益和产出。

快问快答

Harry Stebbings：我想快速进行几个问答。我会说一个简短的陈述，请你给我你的即时想法。

Alex Wang：好的，我们开始吧。

Harry Stebbings：在过去 12 个月里，你对什么事情的看法改变最大？

Alex Wang：我认为是关于我们一直在讨论的超高速增长的话题。主要是将团队的超高速增长与公司的超高速增长分开，并在质量和卓越上重额投入。

Harry Stebbings：你最常听到的关于 AI 的最大误解是什么？

Alex Wang：我认为在今天最大的误解是：我们与 AGI 之间只有计算能力的问题。我认为我们需要数据来达到那个水平。

Harry Stebbings：如果你可以拥有世界上任何一位目前不在你董事会上的董事，你会选择谁作为你的下一位董事会成员？

Alex Wang：虽然这不太实际，但我认为萨提亚·纳德拉（Satya Nadella）是现代最杰出的商业战略家之一。他在微软所取得的成就令人震惊，我认为任何董事会能拥有他都是非常幸运的。

Harry Stebbings：你从未被问过或很少被问到的，但你觉得应该被问到的问题是什么？

Alex Wang：我对于 AI 的看法在不同时代是如何变化的？

我之所以提到这一点，是因为我在 2016 年创立了这家公司。公司的前三年完全专注于自动驾驶和自动驾驶汽车。然后在 2019 年，我们实际上开始研究生成式 AI，开始与 OpenAI 合作开发 GPT-2。