21深度｜“百模大战”进阶，大湾区如何打赢AI追逐赛的下半场|AI_新浪财经

21世纪经济报道记者赖镇桃广州报道

2023年初，ChatGPT掀起大模型热潮，国内互联网厂商也纷纷下场“手捏模型”，“百模大战”风起云涌。

但到了2024下半年，狂热开始慢慢褪去，科技界、学界到投资界进入冷静阶段——反思生成式AI如何落地、商业化，大模型的能力边界和迭代方向。

“从国内的整体发展看，到今年7月底，中央网信办批准的大模型大概有200个，其中只有三分之一是通用大模型，三分之二是行业大模型。我预测未来通用大模型的数量和占比会越来越小，行业大模型会越来越多。”香港科技大学校董会主席、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在2024大湾区科学论坛上说道。

简言之，通用大模型会逐渐往行业方向收敛，这意味着人工智能和产业的结合会越来越紧密，对实体经济的赋能也会愈加显著。在民营经济活跃的粤港澳大湾区，可以如何挖掘人工智能的新一轮机遇？

11月16—18日，2024大湾区科学论坛在广州南沙举行，包括诺贝尔奖得主、国家最高科学技术奖获得者、菲尔兹奖获得者在内的百余位顶尖科学家齐聚于此，对人工智能等前沿科技话题展开热烈讨论。

从通用到行业模型

业界普遍把大模型训练形容为“炼丹”——在Transformer架构基础上，堆百亿、千亿级别的参数，达到一定阈值后，模型的语言理解、推理、生成能力出现一个明显跃升，也就是常说的“涌现”。

但这个过程需要耗费大量算力，烧钱自然不在话下。据国盛证券估计，GPT-3训练一次的成本约为140万美元。OpenAI的财务数据显示，到2029年都恐难实现盈利，到2026年亏损可能达140亿美元，当中大部分的花费要投入到模型训练中。

不止OpenAI，烧钱基本是大模型公司的常态，因而如何实现盈利、完成商业转化，成为横亘在这些公司面前的现实问题。而对业界来说，也要回答大模型除了用于对话、还能拿来干嘛的问题。

“中国训练大模型的速度很快，最后国内会剩下几家企业具备万卡算力，来做真正底层的基座大模型。一旦有这样的通用大模型后，实际上更有意思的是行业大模型。”沈向洋指出，未来在医疗、金融等垂直赛道，有千张显卡就可以做行业大模型。每个企业肯定也要做自己的大模型，在行业大模型、通用大模型基础上加上自己的数据，几百张卡就可以做一个企业大模型，对内提高效率，对外可以提高产品的可用性。

Gartner的问卷调查发现，70%的公司正在投资于生成性AI研究，并将其纳入其业务战略。

今年以来，谷歌、微软和Meta都在开发自己的专有定制模型，为客户提供个性化的服务。通过特定领域的预训练、模型对齐、监督微调，来应用于特定行业。

加拿大工程院院士、欧洲科学院院士、香港科技大学计算机科学与工程系讲座教授郭嵩向21世纪经济报道记者表示，学术界在做0-1的科学发现，不一定能直接产出经济效益。这些年，自己团队通过联合实验室的方法和大型企业建立了密切联系，也和医学院、大型医院建立了合作，对医疗医学建立了更深刻的理解。在这个基础上，才能做出精准的垂类大模型，不久前团队刚发布了四个医疗的大模型，引起了不小反响。这是一种长期的方法，就是把AI的技术、科学计算的公式融入行业，和特定领域的知识融会贯通，这样或许能够产生真正有效的大模型。

大模型正在“向下扎根”，这无疑是产业生态活跃的大湾区优势所在。

中国科学院院士、深圳大学校长毛军发认为，珠三角最重要的优势就是民营经济非常活跃，创新创业的氛围应该说是全中国乃至全世界最好的地区之一。人工智能技术产业化无非就是两种模式，一种是AI+X，另外一种是X+AI，X就是产业应用，而且毛军发认为X+AI可能更重要，应该由各行各业的企业、企业家对人工智能提出需求，并寻找到相关应用落地。

应用层正是大湾区人工智能的主要发力领域。就以广州为例，丰富的应用场景已经吸引了一大批人工智能企业，涌现出云从科技、文远知行、极飞科技等明星企业，它们在自动驾驶、智能农业等不同领域走出差异化发展之路。

关注“卖铲子的人”

业界常言，人工智能的发展有三要素——数据、算力、算法。算法决定模型的准确性和效率，数据是养料，决定内容输出的质量，算力则是铲子，是训练大模型的基础。

沈向洋提及了一组数据，从2019年到现在，每一年出来的最新大模型所需要的算力和前一年相比，刚开始是以每年翻六七倍的规模在增长，最近几年稳定下来，大概以每年翻四倍的增速在增长。可以想象，算力需求一年翻几倍，十年下来这个数字会非常夸张。因为大模型对应大量参数，需要的数据量也在增加，训练模型的算力需求也会激增。所以在整个AI浪潮中，最大的赢家是英伟达。

“这几年我经常讲一句话，叫‘讲卡伤感情，没卡没感情’，算力是人工智能发展的门槛。”沈向洋点出。

过去两年，英伟达市值翻了10倍，一度登顶全球市值之王，足见算力在人工智能江湖里的地位。

但业界也知道，依赖单一一个“卖铲子”的人是有风险的，因为它可以垄断供货、操纵价格。

人工智能与数字经济广东省实验室（深圳）协理副主任黄哲学表示，我们面临的一大挑战是，英伟达限制GPU出口，以前有卡可以建大规模集群，现在不一定建得了。要解决这个问题，还是得走自力更生的道路，立足于国产算力。所以我们鹏城云脑，从II到III都是由华为供应自主芯片的。

同时，解决国产算力问题最主要的还是生态问题。黄哲学进一步指出，我们现在用的很多大模型、开源软件都是从国外来的，大部分是基于英伟达的。自主创新之后，因为芯片改变了，底层的一些算法就不一样了，所以我们要开发类似英伟达CUDA的系统，可以适配国外的软件，同时也可以自主研发自己的创新应用，这样来解决算力的问题。

着眼大湾区，深圳正大力建设国家超算深圳中心、鹏城云脑、腾讯云等算力基础设施。此前IDC发布的《全球计算力指数评估报告》显示，中国的算力产业规模和多样性目前正持续高速增长，2018年至2022年，深圳的算力规模位居全国前三。

去年5月，鹏城实验室首次对外发布了中国算力网计划。这次大湾区科学论坛上，中国工程院院士、鹏城实验室主任高文介绍，作为国家重大科技基础设施，鹏城云脑Ⅱ已在IO500全球总榜单中连续8次夺得魁首，建设中的鹏城云脑Ⅲ建成后，算力规模将达到16000P，相当于832万台家用电脑算力之和。

“大模型并非无所不能”

今年6月，牛津大学发布研究报告《Theory is all you need》，标题上和大模型的开山之作《Attention Is All You Need》相呼应，但牛津的报告则抨击了大模型为代表的AI局限性问题。该报告指出，人类认知的本质是“理论驱动”的，人类不仅能够通过现有数据得出合理推论，更能基于假设、直觉以及跨领域的联想，提出具有前瞻性的创新想法。但大模型的本质更接近于对已有知识的模仿，而非对新知识的原创性探索。

沈向洋也认为，大模型虽然做出来了，但是不可解释，也不稳定，就出很多的问题。人们认为智能有限，似乎大模型出来之后，智能就出来了。但同时，很多人也在怀疑，现在这样的一套体系是不是真的可以走很远。去年，自己也在香港科技大学组织了一批科学家去探讨，“涌现”背后的数学原理到底是什么，试图打开大模型的“黑盒”。

清华大学教授李宗鹏也向21世纪经济报道记者表示，大模型出来后，很多人以为它可以用来做很多事情，颠覆整个经济形态，但是实际上大模型并非无所不能。就说AI幻觉这个点，从数学的角度看，这是大模型永远摆脱不了的问题，因为自然语言处理是基于概率生成和输出内容的，从这一点看，就没办法确保百分百准确。所以AI可以做艺术、文本创作，但是在做需要特别精确的事情时，肯定会存在局限性。

现阶段，大模型依然在沿着规模法则（scaling law）在发展，也就是堆叠的参数、投喂的数据越多，模型就越强大。但质疑的声音不时出现，即使互联网的数据浩如烟海，但迟早会有用完的一天，而且靠堆参数训练模型，这样的方法会越来越不经济。规模法则还是一条可行的路吗？

在郭嵩看来，从目前来看，顶级的科技公司还是非常坚信规模法则，相信随着参数、数据有指数级的增长，涌现的能力也会有显著增强，也就是说投入和产出大致还是成比例的。至于未来要如何去颠覆、下一个规律是什么，就要有待科学界和业界去探索了。但可以关注的是，李飞飞教授提出来的空间智能，她认为这是AI的下一个方向。简单而言就是，现在的大模型还停留在语言层面，但语言是离散的，也难以形成对物理世界的真正理解，所以结合对空间、时间等深层尺度的理解，才能往通用人工智能（AGI）更近一步。