周鸿祎:要把大模型“从原子弹变成茶叶蛋”

周鸿祎:要把大模型“从原子弹变成茶叶蛋”
2024年07月24日 14:31 亿邦动力网

备受追捧的OpenAI为人类探索出超级通用人工智能之路,只是这条路要靠卷模型、卷算力、卷数据甚至卷能源,很多企业因此望尘莫及。

“OpenAI试图创造出像神一样的超级人工智能。他们认为,全世界所有的企业、政府、个人,只要用OpenAI的服务就够了。”360集团创始人周鸿祎戏称,OpenAI看起来是在造“原子弹”。

但他认为,这种方式并不适用于国产大模型的发展,要把大模型拉下神坛,才可以引发更大规模的工业革命。

以下为周鸿祎分享内容,经i黑马编辑:

大家好,很荣幸连续七年参加世界智能产业博览会。我的演讲主题是《拥抱大模型,打造新质生产力》。

如今,全国上下都在谈论打造新质生产力,以数字化技术为抓手,依靠科技创新推动传统产业的数转智改,获得经济的高质量发展。以大模型为代表的人工智能技术是新质生产力的核心引擎。大模型+百行千业是打造新质生产力的必然路径。

天津积极响应“人工智能+”行动,致力于将天津打造为人工智能先锋城市。作为上市公司总部在天津本地的科技企业,360深度参与了天津的数字化建设。

围绕数字化,我们主要做两件事情:一方面是为天津打造数字安全底座,给数字经济保驾护航;另一方面,以大模型产业化落地为核心,助力天津抢占人工智能发展高地。

借次机会,我分享一下大模型如何在企业和政府内部应用,如何推动新质生产力的一些思考。

要把大模型拉下神坛

大模型出现之后,人工智能不再是泡沫,将会引领人类社会进入智能化时代,并对我们的生活方式带来深远影响。未来,我不认为各行各业会被淘汰,而是会被人工智能所重塑。作为新质生产力的关键支撑技术,以大模型为代表的人工智能技将会掀起新一轮的工业革命。

不久之前,英伟达的市值连续超越苹果、微软,成为全球第一。这标志着人工智能时代的正式到来。如何用人工智能推动工业革命呢?

我的观点是,要把大模型拉下神坛。

以电脑为例,当年超级电脑并没有引发工业革命。而是个人电脑走入千家万户、赋能百行千业,才带来了信息化的工业革命。现在提到大模型,我们言必称OpenAI。OpenAI确实很牛,为人类探索出超级通用人工智能之路。这条路要卷模型、卷算力、卷数据,甚至卷能源,将模型朝着万亿、十万亿、百万亿的参数发展。所以OpenAI看起来是在造原子弹,试图创造出像神一样的超级人工智能。他们认为,全世界所有的公司、政府、个人,只要用OpenAI的服务就够了。

但我认为,这在逻辑上并不成立。

通用大模型猛然一用,感觉很惊艳,写的文章、说的话头头是道。但真的应用在企业和政府内部,不仅缺乏行业深度,对具体业务也不了解,因为通用大模型都是用互联网上能找到的公开数据训练的。但是我们的政府和企业内部有很多私有化的深度行业数据,所以我们不能被OpenAI牵着鼻子走。

当然,中国应该发展通用人工智能,应该通过新型举国体制,在开源的基础之上分工合作,形成合力,最终实现技术突破。但是这条路并不适合我们的地方政府和一般企业。对政府和企业来讲,我们应该换一种思路,逆向思考,就是大模型越做越大并非唯一选择。

最近大模型出现三个重要趋势:一是国际上很多新的大模型,看着很大,但是由多个专业的小模型构成的;第二,最近联想、苹果、微软、三星都在把模型做小,要让模型上电脑、上手机、上汽车;第三,最近的开源大模型反而都是越做越小,能力越变越强。

受这些思路启发,我觉得中国发展大模型应该走越做越专的道路,不要去追求“一个大模型能解决所有的问题”。

我们现在的大模型有点像玩具,既能写诗、做奥数题,又希望它能解决生产企业的问题,还想要解决政府的社会治理问题。这是不现实的。术业有专攻,应该让一个大模型解决一个专业问题,也就是我们说的专业大模型或者垂直大模型。将来,政府和企业内部一定是由多个专业大模型或者垂直大模型组合起来工作。

当我们不再追求通用万能大模型来解决企业和政府的所有问题时,过去限制大模型走进政府和企业的很多问题都会迎刃而解。

把大模型“从原子弹变成茶叶蛋”

首先,参数上不再需要千亿万亿,百亿都不用,几十亿就够了。

模型小了之后,算力的需求呈指数级下降,不需要千卡万卡,几块卡甚至一块卡就够用了。

那么,算力的卡脖子问题得到缓解,成本也不需要千万上亿元的资金。

对很多企业来讲,花几十万元就可以拥有自己的大模型,而且不需要等待GPT4甚至GPT5的能力,现在的国产大模型包括开源大模型的能力已经完全够用了。

另外,小参数大模型的一个巨大优势是,可以私有化地部署在政府和企业内部,可以保证数据安全。而且它的响应速度要比通用大模型快,比如360 AI浏览器背后是五个专业小模型,测试比一般的千亿大模型要快十倍左右。

再加上配套工具,用俗话说,就是把大模型“从原子弹变成了茶叶蛋”。OpenAI训练大模型,动辄需要上亿美金甚至十亿以上美金。我觉得,这种方式很难在我们国家推广和普及。

现在大模型变成了每个人都用得起的“茶叶蛋”。政府和企业拥抱大模型,已经是“万事俱备,只欠东风”。

找到明星场景是关键

当算力、算法、模型都不再是问题的时候,什么是关键的问题呢?我觉得就是要找到最合适的场景,我称之为明星场景。因为大模型只是能力,大模型不是产品,能力要结合场景才能真正发挥作用。

寻找明星场景,一是看“四个方向”:在企业内部,对上面向领导,对下面向员工,对内面向内部管理业务流程,对外面向客户、产品或者服务,选择一些具体痛点和刚需场景。

另一个是“四个十倍”原则:可以降低十倍的人力,降低十倍的成本,提高十倍的效率,提升十倍的体验。

找到明星场景之后,根据场景来定义功能,最后再用功能来训练专业大模型,坚持小切口、大纵深的原则,集小胜于大胜。关键是,不要追求在政府或企业内部做一个能够解决所有问题的大模型。

最后强调一下,一定要破除对千亿万亿参数大模型的迷信,认为小参数的模型就不行。实践证明,几十亿参数的模型,如果是在垂直场景中,加上企业或政府的专有数据以及一些内部应用API,在专业能力上完全可以优于千亿大模型。

举个例子,360用独有的安全大数据训练了业内首个安全大模型。该模型由六个专业模型组成,每个模型只做一件事情,并且把这件事情做到极致,最终在网络安全能力上实现了对GPT4的全面超越。

大模型既然是打造新质生产力的工具,就要和传统产业的生产力改进紧密结合在一起。目前,大模型仅仅是用来写文章、做图片,和企业的生产流程还是相距很远。所以我们直接把大模型交付给政府和企业,在某个场景下训练专业大模型。但这里会有大量的重复建设,耗时费力。

我们在过去两年做了一百多个案例之后,总结了企业和政府场景下的八类大模型基础设施,可以称为基座大模型。比如专门做情报分析的,专门做知识管理的,专门做业务融合的……每个独立的基础设施都有数个大模型在集中工作,用这八个基础设施可以自由排列组合,经过简单的定制训练,就能满足政府和企业不同业务场景的具体需求。

比如说在天津海油工程落地的AI和IT协同系统,把客户所有的数据和业务系统全面接入大模型,实现物料采购的自动化预测与生产排期的自动化定制,从而获得生产效率的大幅度提升。此案例虽然切口很小,却实实在在解决了客户生产经营数据分散导致的数率查询低效,生产经营排期和物料准备难以精确预测的痛点。

作为一家在天津发展的企业,我们愿意把360在专业化大模型上的整套技术框架、技术能力搬到天津。依托天津的计算中心资源,建立城市大模型服务中心,把模型变成服务。广泛联合天津本地的产业化、数字化服务商,把模型训练部署应用变成服务业,带动天津大模型产业的生态发展。

注:文/i黑马,文章来源:i黑马(公众号ID:iheima),本文为作者独立观点,不代表亿邦动力立场。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片