“2023中国AIGC产业发展论坛”于9月4日在北京召开。澜舟科技创始人兼CEO周明出席并演讲。
以下为演讲实录:
感谢大会的邀请,大家下午好。今天利用这样一个机会,简要地介绍一下澜舟科技最核心的孟子大模型技术体系。我们用孟子大模型的时候赋能千行百业,在这里分享一下我们最近的一些进展。
我们现在进入了大模型时代,刚才有嘉宾也说了千模大战的时代,我们希望把炼大模型和用大模型有机统一起来形成一个闭环,互相促进。过去两年多,我们一直在做大模型。我从2020年年底从微软出来开始创业做大模型,两年多我们已经做了很多工作,包括在3月份就发布了孟子类ChatGPT模型,5月份大模型对外邀测,最近40B的模型对外邀测等等。大家感兴趣的话可以到我们官网看一下实际效果。
在服务大模型服务千行百业的时候,在想什么问题是大模型在企业落地时存在很多的困难。不是说你练一个大模型甚至你有个ChatGPT水准的模型给企业一用,大家全部叫好,都说很好使,实际上中间有很多的鸿沟。所以站在客户的角度怎么看待大模型非常重要。可能我作为一个客户根本不知道什么是大模型。大模型的规格尺寸,训练时用多大的数据是大模型公司你自己的事,我只关心发一条指令你能把我的任务完成,实际上这是AI Agent道理。我们必须要解决用户使用大模型的最后一公里。
围绕这些能力,要怎么建设一个体系来服务千行百业,我们提出了所谓L1-L4企业级的产品体系,跟大家分享一下。
L1孟子大模型是通用大模型,你可以认为它的认知能力是高中生的水平,具备基本的语言和能力,这个模型不能直接应用于企业。如果为了企业服务,上面还得做一个行业模型,也就是L2模型。你可以认为它的认知能力具备某专业的大学毕业水准。拿金融行业为例,需要把金融的知识数据灌入其中训练一个金融模型,金融模型和通用模型训练时候要讲究数据平衡,否则可能获得了专业能力却忘记了通用能力。行业模型是相当于大学毕业的水平,有一定专业水准。再往上要处理很多场景,每一个场景你不要指望你训练一个通用大模型或者行业模型能解决非常好,要针对某一个特定的场景要么做提示工程,要么需要微调。最后通过企业服务的能力,来解决客户问题,提供相应的效果。
举例一下,以孟子大模型来做AI Agent。比如这里有一个问题,请帮我生成澜舟科技2023年第一季度的业绩点评报告。大模型把这个任务拆解成N多个子任务,每一个子任务对应一个处理步骤。这里有如下8个步骤。这要要涉及到对问题的分解,分解成若干细小的问题,然后顺序执行这些小任务得到一定的结果。这个过程涉及到对外部数据的沟通,跟外部互联网的沟通,以及对结果进行总结归纳能力、写作能力等等。
最近我们的模型取得很好的效果。我们的模型曾经获得中文评测C-Eval的第一名。我们最近发布了40B企业大模型,并支持企业服务,支持行业模型训练。我们的模型中文突出、多语言能力,具备通用写作能力、进行了多轮算法迭代,多伦对话能力比较好。在这个通用模型继续加入行业数据可形成一个强有力的行业模型。我们大模型跟其他现有发布的最好模型相比,在多项任务上,我们有高有低,大体上处于相仿的地位。
大模型落地时,要把场景数据分析清楚,支持各自的业务。我们最近发布了金融大模型。在训练金融大模型的时候,要做预训练,因此要加入各种各样的金融数据,有些数据是互联网公开得到的,有些可以购买,有些是从优秀外文数据翻译成中文,当然有些是合作伙伴提供的。为了做有监督训练,我们这里又有100多项金融中常见的任务场景加入进来,使得我们这个模型不是简单的语言理解的能力,而且要有一定的金融行业任务的理解和执行能力。
为了评测行业模型,也要做一个非常好的设计。不是简单评测一个语言对话、理解,还得把行业中很多的场景考虑进去做相应的评测。这是我们对模型和相应任务进行的评测结果。参与评测的模型有开源的千亿模型,ChaTGPT,我们自己的通用模型。我们用70亿的通用模型以后加入很多的行业知识去做预训练,再做100多项任务微调。结果发现我们这个模型虽相对较小,但是基本可以平替掉Chatgpt模型和开源千亿级大模型。说明给企业做服务的时候,不是非要做到非常大的模型,如果行业数据重组,训练得法,小模型是可以做的可用的水准的。因为企业讲究训练成本,模型小在这些方面占有一定的优势。
基于行业模型或者专业模型有很多应用场景。比如,做知识问答和搜索,基本思路是企业有自己的数据,可以是文本的数据或结构化的数据。一个指令来了,先查外挂企业数据,查到结果跟用户的promt相配对生成一个回复。我们要快速接入企业的数据。这个场景非常广泛的应用场景。
还有个场景是多模态企业搜索场景。企业可能有很多的数据,希望能加上大模型进行搜索。大模型要对企业搜索的意图有很好的理解,搜索的结果要高效率展示。这里举一个例子,可以金融资管企业,要搜公告、新闻、年报等各种金融行业的数据,搜索的结果要做一个总结,让用户看到总共搜多少东西,内容是什么,点击不同的文章可以用不同的颜色显示不同的观点,把观点做一个序列。用户看完观点,可能还要搜索一些具体的细节,基于大模型可以做一些多轮的问答过程。
基于这些能力我们最近发布了一个澜舟智会是以孟子GPT大模型打造的会议平台。用户上传视频文件,系统进行ASR,然后修复识别错误,再抽取关键词、术语、实体名、观点等信息,在支持搜索、摘要、情感分析,也支持对文档信息进行对话。这些都是孟子大模型支持下完成的。目前澜舟智会也公布在澜舟官网上供大家测试。
我们过去两年多也得到了很多的和合作伙伴的支持,在此表示感谢,很多的模型也用在合作伙伴的业务中了。包括华为、传神、华夏基金、同花顺、中金公司、标智客等等,非常感谢他们对我们的支持。
我们把通用模型做好之后,再把行业模型做好,再跟企业数据之间的对接做到简单容易,就可以实现规模化的交付。
我们采取了本地部署方式,也就是应客户要求,可以用客户的数据继续训练一个客户专有模型,再把训练得到的模型部署在用户的本地。我们也支持模型即服务(MAAS),这是我们跟云厂商合作的。我们把我们的通用或者行业模型放进去,用户可以根据按量调用。MASS是灵活的服务方式。
最后再一次感谢AIGC论坛。我希望跟在座的各位有进一步的交流,也期待未来更多的合作,谢谢大家。
责任编辑:梁斌 SF055
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)