段晓东:智算中心加速大模型发展

段晓东:智算中心加速大模型发展
2023年09月15日 14:28 市场资讯

  “2023中国AIGC产业发展论坛”于9月4日在北京召开。中国移动研究院副院长段晓东出席并演讲。

  以下为演讲实录:

  尊敬的各位嘉宾大家上午好,非常高兴受邀参加AIGC论坛。

  有一些专家的观点我特别赞同,说大模型是一个比较复杂的体系,但是中间越来越重要的基础设施,算力的重要性远远会超过大模型,而且会越来越重要。我今天也特别想从我们新型智算中心NICC的角度,跟大家探讨如何构筑一个新的智算中心加速大模型的发展。

  先简单介绍一下中国移动的一些工作。大模型确实带来了人工智能的曙光,也催生出全新的范式变革,我们看到中国正在从百模大战到千模大战,前段时间我组织团队对国内的大模型做了一个评测,确实参差不齐。中国移动高度重视AI这波浪潮,也观察到刚才有的专家提到这个观点,其实我们公司的战略理念正在从X+AI走向AI+X发展,过去更多是引入AI,也就是大家所说的融智,让AI能够渗透到各个行业,包括对我们的网络产生改变,到今天把AI做成基础设施,把算力算法作为中间重要的基础设施,能赋能各个行业走向AI+X的时代,我想这是一个大的主题,对于我们的业务流程、模式甚至价值呈现都会产生很大的改变。

  基于这个理念我们正在逐级构建中国移动的大模型体系。值得一提的是三个比较大的方向,一个是我们的新型智算中心,我们正在构建目前亚洲最大的单体的智算中心,后面会讲到同时第二块在构建自己的模型,第三我们正在推进网络智能化,比如大家特别关注的6G如何内生支持AI,三个方向同时发力。今天重点介绍新型智算中心,前两个只做简单介绍。

  第一,AI赋能网络走向网络使能能AI。一方面我们要AI赋能网络,更多是AI能力能够实现网络当时的设计,大家都说6G是一个算力融合的网络,6G也面临很多挑战,通过AI的发展能够助力我们满足十年一代的发展目标。同时平台化的网络,让6G赋能AI,更重要在6G如何让算力资源平台化服务,能助力移动技术能更多使能AI。

  第二,我们也在自研九天人工智能大模型,中国移动在十年前就组建了九天人工智能团队,我们已经有一千名专家在攻关大模型。前一阵子发布了一个政务大模型,一个客服大模型。大家关注很多,在上海一次大会行业就发布了30多个,确实,每个大模型做得好都非常不容易。这两个行业大模型积累了中国移动背后海量的数据,我们也希望以此为契机不断推动大模型的发展。

  第三是如何打造一个新型算力高峰NICC新型智算中心。什么是新型智算中心,有几个特点,是以高性能GPU、AI加速卡为核心,以前插一个GPU卡叫智算中心,今天必须是以高性能的GPU和AI加速卡为核心设计的新型智算中心,同时必须以高速互联集群为目标,集约化建设单点超过E亿的超大规模算力基础设施。中国移动正在建设亚洲的最大的智算中心,会提供软硬件一体化的AI全栈环境,最终能支持整个AI大模型高效训练。新型智算中心将在五个方面,包括互联、算效、存储、平台、节能都体现出与以往数据中心的不同。

  这一页给大家展开介绍什么是新型智算中心。新型智算中心我们认为会进入两个阶段,首先当前是集群时代,后面会迎来超级池化时代,呈现完全不同的特点。举例,在互联方面,过去在服务器上插一张GPU卡,网卡大概10G、25G就够了,到现在高速互联的时代,动辄400G、800G的带宽,是整个数量级的提升。在算效方面,到今天是8卡模组,很快会进入百卡互联的时代。今天大模型时代有海量数据,而且是非结构化的数据,所以会要求支持融合存储。在平台方面,过去是软硬一体,现在要构建云化平台,针对异构算力要考虑到如何实现跨架构迁移的问题,当然包括节能的问题,整个系统会步入一个新的液冷时代。比如我们在做智算中心设计的时候第一步要找一个合适的地方,要做楼宇加固,做整个能效提升,因为本身的算效太高,过去一个标准服务器机架是7KW,而现在一台服务器要到10KW,甚至更高,所以我们把机柜供电设计成40KW,否则放一台服务器都不行。

  这边给出一个新型智算中心的架构,包括刚才讲到的存、算、网、管效方面都做了增强。首先算力,要强调几个大的算力芯片,包括CPU、GPU、DPU的高效协同,包括要单独考虑网络连接的问题,深化算力协同、新增一个算力原生层,要升级整个绿色节能,大家看到它确确实实跟传统的数据中心不同,我们也专门撰写了一本白皮书进行描述。

  第三部分从五个新的角度给大家介绍一下为什么叫全新的设计,为什么面临很大的挑战?第一个互联技术,这个技术对智算中心太关键,最近做评测得到一个非常关键的数据,过去大家非常强调GPU,其实说实话GPU比CPU要简单,中国大概有20多家GPU的设计厂家,我们做过详细的评测,大家的算力都能达到比较高的水平,但是如果连在一起,相互之间的协作就出现很多问题,比如很多的模型,大概一千亿以上的模型,互联通信的带宽已经到百分之百,但是GPU的效率只有30%左右,可见关键的关键在于卡间的互联。互联分为两级,这张图片体现的是高速的计算互联,随着8卡到百卡的升级,未来会呈现server方的互联。高速互联总线就是解决大量的数据要在不同的GPU之间的搬迁的问题,这个其实是非常重要的技术,中间还有很多中国目前其实还有些卡脖子的技术,像Serdes技术,一个高速的串联转换是一个巨大的难题。这块百卡互联需要很多新的技术,比较遗憾的是中国这块的技术比较少。

  第二个就是服务器间的以太网,服务器之间的互联也很重要,要高速无损的互联,会成为一个新的瓶颈。我们观察过随着算力的继续提升,会面临以太网固有的技术瓶颈,国际上都希望改变。中国移动大胆创新,改变以太网,发明了一个全调度以太网GSE技术,由过去的逐流分发变成逐包的转发。我们的技术发布比较及时,目前全球包括英韦达,微软UEC等等都已经在做,大家的想法其实很相似,我们也被全球评为全球三大主流技术,非常高兴在这个领域能进入全球主要的门派之一。因为改动以太网不太容易,我们希望大家能携手推动这个方向。

  第二个就是存储,当前的存储面临很多的问题,大模型训练中很关键的一个卡点就是访存时延,效率问题,过去CPU旁边有DDR,大家能观察过GPU的设计,周围排布了很多HBM,高带宽内存,可见存储非常重要,当前DDR和HBM是孤立的。未来希望引入池化技术,进一步降低数据在内存和HBM之间的反复交互,进一步提高算效。

  对于计算,我们也提了几个发展方向,希望进一步升级计算架构,包括算法和芯片协调,包括面向低时延的技术。另外,GPU和DPU可以进一步提高算效,将很多的算法卸载在我们的DPU上,能解决目前大量的数据处理的问题。更加中长期是希望能进入新赛道,存算一体,大家知道大模型训练AI训练90%的消耗都来源于访存,人脑是一个非常完美的形态,属于生成式AI计算,我们只吃饭就可以生成那么高的计算,这是一个非常好的架构。国内很多的技术非常成熟,希望能实现弯道超车,能在AI这个领域能突破原有的架构。

  第四在平台方面,我们引入了一个新的算力原生平台,这个是我们原创性提出的。我们观察中国整个GPU市场,国产产品的份额大约在10%左右,大概20多家,整个产业相对碎片化,意味着每个GPU上面都有自己的使能层,比如英伟达比较有名的CUDA,很多的使能层是不一样的,框架主体都不一样。引入算力原生这一层,希望能解决碎片化的问题,这个其实是纯软件的编译技术,中国比较重视硬件,对于软件我也在国内找到很多团队,找到国内做编译器很有名的团队,攻关跨架构综合编译器、原生程序格式规范、原生运行时等等,希望能助力产业解决生态化碎片的问题,助力行业发展。

  第五个是新节能技术,预计新型智算中心将是大规模引入液冷的生态,我们发现中国的液冷行业还存在不少问题,我们也希望通过五个统一能进一步解决液冷技术标准化的问题。因为本身涉及到机房改造,需要整个的液冷线路改造整个服务器的改造,这个问题是比较迫在眉睫,标准化的推进将进一步降低产业门槛。我们也认为可能从当前的冷板式液冷会过渡到浸没式液冷,随着算力的爆发,这个技术发展力助力整个行业的发展。

  看到很多的技术有挑战,为了大模型的发展,我们大家需要携手共创一个新的智算中心的体系,以便在未来的发展中占有先机。希望大家能携手共筑一个大模型发展的智能底座,谢谢。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:梁斌 SF055

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 09-22 中集环科 301559 --
  • 09-21 浩辰软件 688657 --
  • 09-19 三态股份 301558 --
  • 09-18 爱科赛博 688719 69.98
  • 09-14 恒兴新材 603276 25.73
  • 新浪首页 语音播报 相关新闻 返回顶部