芮勇：应用大模型的服务层应做好场景化、轻量化、类脑化_新浪财经

　　“2023中国AIGC产业发展论坛”于9月4日在北京召开。欧洲科学院外籍院士、联想集团首席技术官、高级副总裁芮勇博士出席并发表演讲。

　　芮勇表示，在大模型生态结构层次中，有算力层、平台层、模型层、服务层和应用层。如果下一个巨大的爆发期不是在建大模型，而是应用大模型，那么服务层将变得非常重要。他认为，服务层应该做好三个“化”：场景化、轻量化、类脑化。

　　以下为演讲实录：

　　非常高兴有机会跟大家进行交流。15分钟很短，我就分享一个观点。我粗略统计了一下，目前业界有上百个大模型，大有15年前的千团大战的趋势。大家想想15年前的千团还剩几个，只有一两个了。现在的大模型今后还能剩几个，我觉得也就寥寥无几。所以我的一个观点，从几个月前开始，我相信越来越多的人看到，有一个大的趋势的转变是从“建”大模型到“用”大模型。更重要的事不在于又建一个大模型，又发布一个大模型，而是有没有找到一个好的、合适的垂直行业，有没有找到一个好的、合适的场景，有没有真正去解决一个痛点，有没有真正打造一个有效运用大模型的配套工具，我觉得这个才是最重要的。

　　在大模型生态结构层次中，有算力层、平台层、模型层、服务层和应用层。如果下一个巨大的爆发期不是在建大模型，而是用大模型，那么服务层将变得非常重要。这也是我今天想跟大家分享的，把服务层做好三个“化”，也就是“场景化”、“轻量化”、“类脑化”。

　　先看第一个，场景化。今天很多通用大模型，无论是ChatGPT还是国内的大模型，对一些比较通用问题的回答还是可以的，但是对许多场景化应用无法落地，无论是B端场景还是C端场景。B端的场景给大家举一个例子，这是我们公司内部的一个应用，通用大模型无论是ChatGPT还是国内的大模型，不可能知道企业内部的数据库和企业内部的知识库。比如在618促销的时候，它不可能知道企业内部产品的关系，哪个产品的库存有现货，哪个正在促销打折，现在618哪个产品最便宜。所以B端一定要做场景化。C端其实也是一样的，跟ChatGPT聊上几句，最开始很新奇，很有意思，聊一个月以后还会去聊吗？不太会。但如果在C端做一个有场景的数字人，这个事就变得不一样。例如这是Character.AI里最流行的几个角色，前面三个是跟游戏相关的，我不怎么打游戏，所以前三个不太清楚，但是相信在座的年轻人熟悉。第4个是一位心理学学生做的心理咨询师数字人，会回答很多心理上的问题，有什么焦虑，有什么问题，怎么去共情，怎么疏导情绪，非常火爆。第5个大家都认识，伊隆·马斯克，他发表所有的观点都作为模型训练数据，形成一个具有马斯克个人特色的回答，用户可以问他怎么创业，遇到问题该怎么办等等。这样，有场景化的大模型才真正有意义，才能真正找到落地的商业模式。无论是从B端还是C端，我们看到，真正想有一个能赚钱的产品模式，必须做场景化。

　　做场景化有几种不同的方式。第一种，如果用户自有大模型，很容易，将数据灌进去调整模型参数就好了，但问题是用户不一定拥有这个大模型，另外算力需求也很大。这里有两个例子，一个是Bloomberg做的GPT在通用模型之上做了财经类的垂直模型，另一个是Google做了基于医疗领域的大模型Med-PaLM。如果有大模型，就可以训练出垂直领域的大模型。但是很多情况下没有大模型，没有这么多的算力。

　　第二种，只调整模型中的少量参数，即高效参数微调。比较有代表性的，我相信在座有不少同事都很清楚，就是使用低秩矩阵的LoRA方法。大模型的预训练参数不变，我在边上做一个低秩矩阵，用这个小的低秩矩阵去调现有的数据。这样做的好处是用很少的算力资源，比如只用它的千分之一就够了。但是问题是如果现有的场景和之前的大模型差太远，光靠一个低秩矩阵去调也不行。

　　第三种，不是调大模型的本身，调的是提示词，就是我们说的Prompt Engineering。半年前ChatGPT很火的时候，我跟同事发现一个问题。我们问大模型同一个问题，问的方式不一样ChatGPT回答也不一样。我们把会问问题称为“念咒语”，其实这个问题的问法，即prompt也是可以去学习去训练的。用Prompt Engineering的方法把这里关键的问题挖掘出来，问的方式不对就问不出最好的答案，问的对了，就能问出最好的答案。

　　第四种方法叫做检索辅助增强。这个其实大家也可以想象，我一定不会拿企业的一些信息问ChatGPT，那是不可能的事情，这里有数据安全的问题。比较好的方式是把一个大模型私有化部署在企业内部，和企业的数据库知识图谱连在一起。当然放在公有大模型上也可以，New Bing就是这么做的，它的好处是实时，ChatGPT的好处是知识非常宽广，并不是实时的，这就要看怎么把知识宽广和实时性相结合。

　　最后一种是外挂插件调用。做数学方面研究的人肯定知道有一个工具箱非常强大叫Wolfram Alpha，但是它对语言的理解非常弱，跟大模型刚好相反，如果大模型外挂上一个Wolfram Alpha它的计算能力就非常厉害。这里不做过多展开，但是告诉大家这五种方式可以将一个通用的基础大模型适配到某一个垂直行业和某一个场景。

　　以上讲的是大模型的场景化，真正想落地，建立商业模式，我觉得这一步是一定要做的。第二步我觉得很重要的一点，大模型一定要轻量化。它在云侧和端侧都需要做到轻量化。在云侧，有人做过计算，大模型GPT-3训练时所需要的能耗相当于一个人从纽约到旧金山往返飞行550次，这是非常不环保的一种方式。即使训练做完了，在做推理的时候，耗费的能量应该少一些，但是它每个月仍然会花大概1200万美元左右，只是为了支持推理而已。这是一个非常耗能源、耗算力、耗资源的方式，所以我们希望在云侧也有办法去轻量化。

　　在端侧更是这样，云侧大模型太贵了，我们希望在端侧能够也有一个大模型，无论是部署在边缘侧还是手机或是PC上。端侧大模型有很多好处，它的延时很低，能耗比较低，个人隐私保护得很好等等。无论是从云侧看，还是从端侧看，还是从环保看，从“双减”看，都需要一个轻量化的大模型。怎么做，也有好几种方式。

　　大家其实知道现在全球做得比较好的是OpenAI的ChatGPT，但是Google的PaLM做的是另外一种网络架构的大模型。Google是用多专家方法去做的，有一个潜在的好处，训练的时候每一个任务只是让某一个专家去做，训练完了以后做推理的时候也不需要整个模型都去做计算，只是点亮中间几条通路而已，所以可以做到轻量化。这是第一种方式用稀疏激活的方式去做，达到轻量化。此外，大家都能想到的，大模型不可能在PC上直接跑，至少要压缩以后才能跑，那么可以用蒸馏的方法、量化的方法去做。除了在端侧做轻量化，在云上也需要加速，无论是编译时优化还是用芯片硬件优化，也可以做到轻量化。最后一种是大模型与知识图谱相结合，这几种方法都可以做到轻量化。

　　刚才我讲了两个事情，一个是基础通用大模型的场景化，另一个是怎么把大模型做到轻量化，这两个非常重要。今后不在于哪个公司又“发布”了一个大模型，而是在于怎么“用”大模型。“用”大模型必须面对这两个事情，基于应用场景进行场景化和把大模型做得更加轻量化。

　　下面稍微对未来做一点展望，类脑化也非常重要。刚才韩主任在她的开场致辞里也提到，类脑化确实很重要。大模型的出现让人们看到希望，感觉是第三次人工智能的夏天似乎又来了，但是它也解决不了所有的事情。这是深度学习三巨头之一Yoshua Bengio讲的五层“世界范畴”，一个AI模型它有多厉害，它的世界观有多大，来自于它的语言能力有多强，它的语言能力多强来自于它的训练集多强。早些时候，世界范畴1就是一些比较小的模型，我相信在座的各位如果做过NLP的都知道从上世纪60年代一直到2019年，大家一直在干这个事情。直到ChatGPT出现，它用整个互联网规模的数据进行训练的时候，就进入了世界范畴2，这个是纯文本。世界范畴3的话，除了文本之外还有图像、音频、视频，是一个多模态，GPT-4也在干这个事。现在有一些科研领域的人在开始看世界范畴4。大家认为GPT也好，大模型也好，只是人的一个脑子，如果人只有脑子没有脚没有手，其实无法和外面的物理世界进行交互，跟外界事物有交互才能学习得更好。世界范畴5讲的是，人类是社会生物，一定需要多群体交互。大模型是一个非常了不起的突破，但不是解决了所有问题。

　　这页讲的是Google做的具身智能，机械臂把相同颜色的积木放在不同的角落，一边观察一边控制，跟外界事物有相互作用，这是他们在做的世界范畴4的研究。下面这页PPT讲的是今天的大模型很棒，但是还有很多的局限性。左边是微软研究院的文章指出，GPT-4也不是什么问题都能解，它做规划的能力非常弱。右边是MIT校友的研究，指出GPT-4不仅规划能力弱，它的推理能力也很弱。它为什么会这样？原因在于它的范式局限。今天大模型在干什么，其实大模型在预测下一个词，再下一个词是什么。它没有一个大的规划，看不到全局，这是它的问题。怎么突破局限解决这个问题？要向人的大脑学习，像刚才韩主任提到的，类脑化，人类想一件事情是一个词一个词想的吗？不是，我们有规划，我们有短期长期的记忆，我们知道什么时候选择不同的工具，比如现在问我一个三位数乘三位数的乘法，我当然没有答案，但是我会去找工具，会去做一个规划，不会一小步一小步去做，把大问题分解成小问题再去做。

　　这是我的最后一页，这15分钟，我希望大家记住这一点，过去这6个月越来越清楚，趋势就是从“建”大模型到“用”大模型。怎么用好大模型，需要找到合适的领域和场景，并且同时要建立有效的使用大模型的工具。大模型在那儿，我们需要建立的是实现场景化的工具，实现轻量化的工具，实现类脑化的工具，实现保护个人隐私，把工具找到，才能做好应用。这就是我刚才跟大家谈的场景化、轻量化、类脑化。谢谢大家！