四位大模型创业者聊 AGI、Scaling Law 和价格战_新浪科技

摘要

什么是 AGI？大模型和 Scaling Law 是其实现基座吗？怎么看价格战？四家大模型公司给出了自己的答案。

文｜幸芙

编辑｜郑玄

谈论了一整年的 AGI 和大模型，但什么是 AGI？大模型是实现 AGI 的必需基座吗？Scaling Law 仍会继续有效吗？

中国排名前列的四家大模型创业公司给出了自己的答案。在 6 月 14 日举办的北京智源大会上，智源研究院院长王仲远提出了这些问题，百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟、面壁智能 CEO 李大海展开了同台讨论。前三位代表了中国最受关注的大模型厂商，后一位则是端侧大模型的新贵。

关于 AGI 的定义，每个人的看法不一。但他们认可 Scaling Law 是目前实现 AGI 的有效方式——不过这一定律的内涵和要求也在发生变化。比如杨植麟认为，Scale 的数据和方式会是一个关键问题；王小川认为，除此之外还需要更多范式，比如融入「自我思考性」系统；而张鹏和李大海都赞同除参数量之外，数据质量、训练方法等也尤为重要。

谈及前不久行业热议的价格战问题，他们都认同降价、以及由此带来的大模型普及这一趋势，不过每个人观点也各有不同。

比如杨植麟认为，未来训练成本将低于推理成本、并低于获客成本，而当 AI 在人类工作流中占比过半，今天 To B 的商业模式可能转变；王小川认为，价格战让更多企业打消了自己做模型的念头，减少了社会资源的浪费；而张鹏和李大海观点也较为接近，那就是要在成本降低、和模型厂商健康经营之间取得一个平衡。

这是四家大模型厂商罕见的同台交流，以下是这场对谈的精华，经极客公园整理后发布：

北京智源大会上，智源研究院院长王仲远与四位大模型创业者对谈｜图片来源：智源研究院

谈 AGI：scaling law 是目前的有效实现路径，但还不够

王仲远：大模型会是 AGI 的一个基座吗？还是说它只是一个数据的压缩，可能对产业界非常有价值，但并不一定能够通往 AGI？

杨植麟：我们比较相信大模型还是这里面的第一性原理，通过不断提升模型的规模，它确实本质上是一个压缩、但这个压缩确实是可以产生智能。所以随着不断地规模化这个模型，不断地做更好的压缩，它能产生越来越多的智能。

当然在这个过程中也会有很多挑战，比如最大的挑战就是有些数据可能并没有那么多，或者说假设你最后要做出来一个可能比人类更好的 AI、那可能就根本不存在这样的数据，因为现在所有的数据可能都是人产生的。所以我觉得可能最大的问题是怎么去解决比较稀缺、甚至可能不存在的数据问题。

但是我觉得规模化定律、或者说大模型本身，可能没有太本质上的问题。

王小川：我觉得基石这个词是没有问题的。今天大家已经看到了 Scaling Law 带来的提升，但是我想说，它只是在逼近 AGI，但是光靠 scaling law 我理解是不够的。所以如果从第一性上讲，可能需要有范式的一个改变。今天大家忽略了一件事情，那就是语言放到大模型的体系里面、语言变成了数学。

我们接下来往前走，除了规模以外的话，符号跟这种连接的融合，我觉得这是中间的一件事情。那么再往前走，还会有更多东西必须有范式改变，比如今天大模型是靠数据驱动一种学习系统来做压缩，但是反而像之前类似像 Alphago 那样能够自我思考性的系统，也会有这样一个作用。

所以我的结论来讲的话，我们是到了 AGI 的时代，通过有足够多的科学家进来、更多的资源进来，我们能够走向 AGI。但是光是以现在我们看到的 scaling law，是走不到 AGI 的。

张鹏：首先同意小川说的，大模型是肯定是基石，那至于是不是之一，这是另外一个问题。

这个问题其实也涉及到说，你怎么来定义 AGI。站在我们现在的角度来说，我是觉得做人工智能的这波人还挺实用主义的。所谓的实用主义就是说，咱不看广告，看疗效。这东西它能不能解决问题？能不能真的在我们每个人心中定义的 AGI 路径上推进一步？大模型到目前为止还是很有效的在推进这件事情、scaling law 也在有效往前推进。

那至于说它是不是能够帮助我们推到那个顶峰上去？我们现在也找不到这个很确切的一个答案。但至少我们相信它在这个阶段还是有效的，所以我认为它肯定是基石，至少是基石之一。

李大海：我个人是数学专业毕业的，所以我可能会比较严谨的去表达。我认为大模型一定是通往 AGI 这个方向上，当前所有技术里面能走得最远的。但它能不能够直接到达，我觉得现在还有很多未知的因素。

我想提一个可能大家没有提到的点，我觉得现在的大模型作为知识压缩，主要是在处理人的大脑的「系统一」的工作。而它作为慢思考去做各种各样的推理、做搜索组合来完成任务的「系统二」的能力，可能未来要通过 agent 的技术外部化、或者把它内化为自己的能力去完成。这个是行业里面大家需要去探索的。

王仲远：确实是一个非常有意思的问题，我们总在讨论 AGI，但似乎好像连 AGI 的定义大家都没有广泛的共识。在各位的心里，到底什么叫 AGI？

杨植麟：首先我觉得 AGI 的定义是重要的，但它不一定需要被非常精确的、量化的定义，它可能是一个定性的、感性的东西。因为它最重要的一个作用是，在技术的节奏非常快的情况下，如果我们能知道 AGI 是什么样的，其实可以更好的去准备这个事情。

其次在短期内，可能是需要一些目标的量化。传统图灵测试可能到现在已经不完全适用了，现在 AI 通过了图灵测试，但还有很多事情是人可以做得非常好、AI 基本没法做的。所以量化不是一个很容易的问题。你可能需要对评估的维度去做很多拆分，比如说知识能力、推理能力和创造能力，可能评估的方式会完全不一样。

这也是现在大家在关注的问题，是非常重要的。

王小川：我提到现在是 AGI 元年，是因为我们掌握了 scaling law，同时我们掌握了把语言变成数学的能力，这是重大的起点。大家以前都在讲图片识别很厉害、无人驾驶也很厉害，我调侃说狗也可以自己导航、狗也会看图片，但是狗不会语言，语言代表了我们认知世界的一个大的范式。

什么是 AGI，确实在全球里面很难有完整的共识。我觉得我们得把它从一个空间换到另一个空间来做判断，在我心中，接近 AGI 的定义是看它能不能造医生。为什么？之前我们在谈 AGI 的时候，一种是把它当成工具在看，一种是把它跟人差异化看，我是拿人的一个职业来跟它做比较。

医生在所有职业里是一个智力密度相对最高的职业，既需要多模态，也需要少幻觉，有效记忆，比如看 70 万字的病例，也要有推理的能力，也要有查文献的能力等等。如果你认为医生比 AGI 低，那医生都造不了，咱们就别谈 AGI 了。如果你觉得医生比 AGI 还高，而医生只是造人的种类中的一种，我觉得医生跟 AGI 基本是可以画等号的。

数学上有一个题目是自然数和偶数哪个多，大家第一反应是偶数比自然数少，因为偶数是自然数的一个子集。但数据上它们是一样多的，因为每一个自然数乘以 2 就是一个偶数，它们是可以映射的。今天我是把大模型的能力都映射到医生身上，你拿这个做标准，能造医生就是 AGI。

李大海：我会尝试从经济学的角度来去定义 AGI。从经济学的角度讲，如果我们去执行任何一个任务，它的边际成本都为零，这就是我们理想中的 AGI 了。为什么我认为大模型能够走得最远？就是我相信大模型能够把边际成本一直往下降，可能会逼近于零。

去年我们看到行业做大模型落地的时候，很多场景还需要做微调，边际成本很高。但我们相信随着模型能力的提升，慢慢从微调到只需要做 prompt engineering、慢慢连 prompt engineering 都不需要，直接就问你到底有什么需求。通过这种方式，我相信未来的门槛、成本会越来越低，低到接近于 0 的时候，我觉得 AGI 基本上就到来了。

我额外还想补充一个观点，其实大模型的智能密度也是个非常重要的事情。当有一天我们达到 AGI 的时候，我们还要把大模型小型化，如果我用一个 10 万亿参数的模型能做到 AGI，那我能不能把这个参数降到 1 万亿、1 千亿？这是我觉得需要去突破的事情。

张鹏：与其说严格的定义，我更愿意相信 AGI 可能是我们的一种信念、一个符号，它的内涵外延是在不断的变化的。如果你能把一件事情说得非常量化、非常清晰，那这件事情也就那样了，估计天花板在哪大家都能看得到了。现在没有人能把这些说清楚，那反过头来讲是一件好事，说明它还有很多未知的空间等待我们去探索。

当前我们的目标是，让机器像人一样去思考，这只是第一步。当然机器的能力远不止这个水平，我们期待它可以超越人的能力，也就是所谓 super intelligence。在这个过程中，我们会不断更新迭代 AGI 的内涵和外延。王仲远：大家反复在提 scaling law，你们还会特别的坚信吗？它会继续在未来的这些年发挥作用吗？

杨植麟：scaling law 没有本质的问题。我认为接下来（scale）3 到 4 个数量级，这是非常确定的一个事情。但更重要的问题是，你怎么能够很高效地去 scale？你应该 scale 什么东西？

如果还是像现在搞一堆 Web text（网页文本）去 scale，可能就不一定是对的方向，因为这里面可能就会遇到很多的挑战，比如推理能力不一定能够在这个过程中解决。如果你沿着现在的方法去做，上限是很明显的。

Scaling Law 本质上是说，只要有更多的算力，数据模型参数变大，就能持续产生更多的智能。这里面其实并没有定义你的模型是什么样的，比如要多少个模态？中间的数据是什么样的？数据是生成出来的，还是说可以用 Web text？也没有规定你的这个 loss function（损失函数）是什么样的，就不一定是 next token prediction（下一个词预测）。

所以我觉得 Scaling Law 是会持续演进的一个第一性原理，只是在这个过程中，scale 的方法会发生很大的变化。包括杨立昆一直在讲的世界模型，本质上现在的大语言模型是世界模型的一个特例。你只是说先把里面一部分给做了，但是还要持续扩充训练的方式。

王小川：我觉得 scaling law，到目前没有看到边界的持续发挥。我们看到美国 Elon Musk，号称要买 30 万片 B200 来做，美国确实在这方面的认真程度、投入程度是会远高于中国的。我们在 Scaling Law 之外，一定要去寻找泛市场的一个新的转化。

我认为不管是从战略上、还是从信仰上，我们在 scaling law 之外应该都有一个范式的变化，就不只是简单去 predict 下一个 token 、压缩这种模式。只有走出这样一个体系，才有机会走向 AGI、才有机会跟最前沿的技术产生较量的能力。

张鹏：到目前为止，我们还没有看到 scaling law 会失效的预兆。未来相当一段时间之内，它仍然会有效，当然这个所谓的会有效也是一个动态的概念，它所包含的内涵会不断地演进。scaling law 早期关注的是简单的模型参数量规模，现在已经慢慢扩展到，参数量很重要、数据量也很重要、数据质量也很重要。

关于 GPT4.5 和 GPT5 为什么一直没有发布，我觉得里面的因素会非常非常多。但就我们自己来说，我们会不断遵循 scaling law 往前进。举个例子，我们开始做「悟道」的时候就讨论过一个方案，就是到底是做一个稠密的单体模型、还是做一个 MOE 架构的稀疏多体模型？这就是我们追寻 Scaling Law 的不同路径。

但是发展到今天这个地步，这里面维度已经非常非常多，你可以在很多方面去做这件事，但反过来看，它的难度和复杂度又上升了。所以我理解想要实现 GPT 5，或者我们自己下一代的模型，这里边技术要探索的东西还是非常非常多的。

李大海：我认为 Scaling Law 是非常重要的。Scaling Law 其实是一个经验公式，是整个行业对于大模型这样一个复杂系统观察以后的一个经验总结，这个经验总结会随着我们模型训练工作过程中做的实验越来越多、认知越来越清晰，会有更加细的颗粒度的认知。

比如我们发现除了前面这些维度之外，在模型训练中的训练方法对于 scaling law、对于智能的影响也是比较显著的。那这个显著的影响在我们固定住参数规模以后，其实会变得非常重要。现在大家觉得参数规模能够不断地往上 scale，它是低垂的果实，只要扩就可以。但是一旦参数固定了，要让端侧的芯片去支撑这个规模的模型、做到足够好的智能，那么数据的质量、训练的方法这些都变得非常重要。

谈行业：价格战有利于大模型的普及，但需要更健康的方式

王仲远：最近其实也关注到一个非常热门的新闻，Stanford 的团队抄袭了面壁的 MiniCPM，你怎么看这个事？

李大海：我们也没有想到会以这种方式出圈。我要澄清一下，这是海外个别学生的个人行为，它不代表任何更大的、比如斯坦福这个学校的行为。这个事件发生了以后，像斯坦福的系主任、以及一些西方同行都表达了非常正的观点。

这些学生宣称这个模型的多模态能力是跟 GPT 4 v 和 Gemini Pro 对标，但是参数只有后者的 1%，并且还只需要 500 美金就可以训练出来。那前两项是真的，我们的模型真的是有这样的能力，但是 500 美金是训不出来的，还是要花很多的钱。

因为这个事件，我们会更加坚定的相信开源的力量。因为其实这不是我们自己发现的，而是靠我们开源热心的参与者发现的，他们会在里面贡献需求、贡献反馈，这些都是开源生态非常重要的组成部分。王仲远：百川也把自己的百川 1、百川 2 都对外开源了，你们当时训也花了不少钱，当时把模型对外开源的考量是什么？

王小川：我觉得第一是市场有这样的需求，我们大概是去年 6 月开的第一版、9 月开了第二版，当时国内对大模型属于一种大家热情惶恐、也需要快速入场的状态。

当时美国既有大的闭源生态、也有 llama 这样的开源生态，所以我们想做这件事。我们是把自己最好的模型开源的这么一个厂商，得到了市场的很多认可，也给了我们很好的 credits，这对我们是挺大的鼓舞。不管是后面人才的储备、资本的这种关注，也算是给行业交了一个投名状。

另一方面，我们也看到模型会快速的进步。所以在当时开源是不是把「底裤」拿出去了、就没有竞争力了？我觉得不会的。今天我们最好的模型，可能在明天就是一个不够好的模型了。所以从商业竞争上，我们其实也没什么大的损失。

今天有很多公司也在做各种开源，我觉得大家共同在做这样的一个贡献，也希望这个生态能够越做越好。

王仲远：随着大模型的发展，AI 安全问题也被不断的讨论，我们大模型的产业界怎么去看 AI 安全问题？它是一个当下最急迫的问题吗？

杨植麟：我认为 AI 安全非常重要，虽然它可能不是当前最紧迫的问题，但我们需要提前准备。随着模型的发展，根据 scaling law，每隔几个月、算力提升 10 倍，智能水平也会随之提高。

在这个过程中，我觉得有两个重要方面。首先，模型可能会因用户的恶意意图而被利用，导致一些不应发生的事情。例如，现在有研究在做 prompt injection，防止用户在提示中注入不恰当的意图。

其次，模型本身是否会有自己的动机？这与训练方式有关，能否在模型的底层注入 AI 宪法以框定其行为，无论用户指示什么或模型自身的想法是什么，它都不会违背这一宪法。我认为这是非常重要的。

王小川：我想提三点关于 AI 安全的事情：

首先是意识形态安全。作为一个中国的大模型，我们的意识形态需要与国家价值观和意识形态保持一致，这是我们必须做到的底线。

第二个是空谈的、比较远的安全问题。有人担心模型是否会毁灭人类，进而掌握世界。我不认为会发生这种事情。去年底我写了一封公开信，讲到 AGI 应该帮助我们繁荣和延续人类文明，而不是将 AI 作为机器，当作工具和奴隶。从文明的标准来看的话，第二层的安全带有理想的色彩。

第三个安全是比较现实的。现在让 AI 去做个医生都是好难的事，如果连医疗都搞不定、能力如此之弱，那就不用担心 AI 颠覆人类的问题。所以近期 AI 还没碰到今天人类文明安全的边界，当前我们还是努力把它的能力提上去。

张鹏：我们一直非常关注 AI 安全问题。前不久，我们还跟全球 15 家与 AI 相关的企业一起，签署了一份关于前沿人工智能安全的承诺。所谓负责任的 AI 这件事，它比安全要更大一点。就是我们需要确保技术真正帮助人类、社会和地球，而不是去作恶。

人的两面性很难说，你们保证没有人去拿这个事情去作恶，但现实社会中已经有人在做这些事情。防守总是比破坏难。讨论安全的意义并不是说，我们现在能拿出多么安全的技术方法或者管理规定，约束大家不要去做这件事情。而是在于说增强大家的了解、形成统一的认识。把问题摆到桌面上来，那总有解决的办法。

李大海：我认为当前阶段的 AI 安全主要集中在基础安全和内容安全这两个方向。现阶段的大模型本质上是只读的，模型训练好后，权重是固定的，推理不会影响权重，你的权重是在线下再去持续的阶段性训练的。

有一天当我们把模型部署到机器人或其他终端设备上，它能够动态地更新自己的权重之后，安全问题会变成一个非常非常重要的问题。

王仲远：你们怎么看近期大模型的价格战？它是更有利于大模型的普及，还是并不利于企业的发展？

杨植麟：这是一个非常好的问题。如果我们把时间线拉得足够长，最终还是会回归到价值本身。我有三个判断：

第一，如果我们去看算力的投入，未来我我们投入在推理上的算力，在未来某个时间点之后，将显著超过训练所需的算力。这将标志着你的价值开始释放，前期用于训练的成本将被很大程度覆盖。

第二，从 C 端的角度来看，推理成本将显著低于获客成本。可能从商业本质上来讲，它可能不会跟之前的各种商业模式有非常本质的区别。

第三，今天 AI 在整个人的工作流程中的占比还很低，大约只有 1%，也就是说人做的事情要多于 AI 做的事情。我觉得在某个时间点，当 AI 承担的工作量逐渐超过人做的事情时，新的商业模式将会产生。它可能就不是今天在 B 端去做 API 的价格战，而是一个普惠的 AI、同时是根据它产生的价值来进行分成的商业模式。

我觉得这三个因素将是改变商业模式本身、或者 ROI 的重要趋势。

王小川：我认为当前的价格战对中国发展大模型是非常有利的，我积极看待这种现象。首先需要区分价格战对单个公司的影响和对整个市场的影响。价格战是一种市场行为，具有竞争导向，它至少带来两个好处。

第一，更多公司和个人能使用大模型。以前很多企业不懂这个，但现在就像一场普及运动，很多公司可以免费或者便宜的使用大模型，吸引了更多企业和个人参与，这是对整个市场的第一个好处。

第二，它减少了浪费。以前大家对大模型感到恐慌的时候，我就观察到很多企业但凡有点技术能力，都说我自己要训有大模型。明明它该是大模型的使用方，但都想转型成为大模型的供给方，其实带来很多的人才、资金和社会资源的浪费。价格战让很多企业开始清醒了，我干嘛非得做？我的竞争优势在什么地方？浪费会减少很多。

之前没有价格战的时候，中国可能真的是上百、上千个大模型在训练，那现在有了明确的市场分层，这种竞争力就能起来。

张鹏：我基本赞同这个观点，之前还有人来问我们是不是价格战的发起者，我说这是子虚乌有。我们一直秉持的理念是，通过技术和创新大幅降低使用成本，从而推动技术普及，让更多人享受其收益。

我们长期以来提供的价格在行业内一直处于极低水平，这是因为我们的技术确实能够做到这一点，能把中间的成本空间释放出来，当做大家的收益，帮助大家把 ROI 算出大于 1 的数字来。

当然这个事情从宏观角度来讲，肯定是说有利于整个中国的大模型产业，有更多人来使用。就像我们说的，大模型会变成像水电一样的基础设施，非常便宜且随时可用，企业不用再为高投入和回报问题而纠结。对企业来讲，会是一个很好的发展态势。

这也是我们一直在坚持做的事情。最近 20 号我们发布的新模型，真的把成本压低到我们都不好意思报价的程度。以前报价可能是一千 token 几分钱，就没有比这个更小的单位了，那怎么办呢？现在变成每百万 token 几分钱，已经到了这样的一个地步了。

我觉得这事对整体是有好处，但也要注意不要去过多的关注和宣扬这件事情。商业上，它肯定是牺牲企业的短期的利益，亏本做买卖，这不是一个正常的商业逻辑。它肯定是只能持续很短的时间，真正还得回归到最终的用户价值、生产力价值上。

李大海：我们做端侧，就是看到了端侧快速落地的潜力。最近有一个机构的调研显示，全国 10 亿用户的手机端算力相当于 100 万片 H100。这是一个非常夸张的数字，如果这些手机算力能够被好好利用起来，我们很多的应用就可以落地了。

现在到未来，我们都需要端侧模型和云侧模型的良好协同。端侧有独特优势，比如隐私性好和更可靠，但云侧的模型能力更强。所以怎么有效地协同端侧和云侧模型，是我们与其他模型公司共同需要解决的问题。

我也同意前面提到的观点，我认为当前的价格战多少带有一些营销成分。但是我相信未来价格会比现在更低，同时大家也能获得利润，这才是健康的方式，并且这才能真的能让千行百业的应用往下落地。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

四位大模型创业者聊 AGI、Scaling Law 和价格战

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号