段晓东：智算中心加速大模型发展_新浪财经

　　“2023中国AIGC产业发展论坛”于9月4日在北京召开。中国移动研究院副院长段晓东出席并演讲。

　　以下为演讲实录：

　　尊敬的各位嘉宾大家上午好，非常高兴受邀参加AIGC论坛。

　　有一些专家的观点我特别赞同，说大模型是一个比较复杂的体系，但是中间越来越重要的基础设施，算力的重要性远远会超过大模型，而且会越来越重要。我今天也特别想从我们新型智算中心NICC的角度，跟大家探讨如何构筑一个新的智算中心加速大模型的发展。

　　先简单介绍一下中国移动的一些工作。大模型确实带来了人工智能的曙光，也催生出全新的范式变革，我们看到中国正在从百模大战到千模大战，前段时间我组织团队对国内的大模型做了一个评测，确实参差不齐。中国移动高度重视AI这波浪潮，也观察到刚才有的专家提到这个观点，其实我们公司的战略理念正在从X+AI走向AI+X发展，过去更多是引入AI，也就是大家所说的融智，让AI能够渗透到各个行业，包括对我们的网络产生改变，到今天把AI做成基础设施，把算力算法作为中间重要的基础设施，能赋能各个行业走向AI+X的时代，我想这是一个大的主题，对于我们的业务流程、模式甚至价值呈现都会产生很大的改变。

　　基于这个理念我们正在逐级构建中国移动的大模型体系。值得一提的是三个比较大的方向，一个是我们的新型智算中心，我们正在构建目前亚洲最大的单体的智算中心，后面会讲到同时第二块在构建自己的模型，第三我们正在推进网络智能化，比如大家特别关注的6G如何内生支持AI，三个方向同时发力。今天重点介绍新型智算中心，前两个只做简单介绍。

　　第一，AI赋能网络走向网络使能能AI。一方面我们要AI赋能网络，更多是AI能力能够实现网络当时的设计，大家都说6G是一个算力融合的网络，6G也面临很多挑战，通过AI的发展能够助力我们满足十年一代的发展目标。同时平台化的网络，让6G赋能AI，更重要在6G如何让算力资源平台化服务，能助力移动技术能更多使能AI。

　　第二，我们也在自研九天人工智能大模型，中国移动在十年前就组建了九天人工智能团队，我们已经有一千名专家在攻关大模型。前一阵子发布了一个政务大模型，一个客服大模型。大家关注很多，在上海一次大会行业就发布了30多个，确实，每个大模型做得好都非常不容易。这两个行业大模型积累了中国移动背后海量的数据，我们也希望以此为契机不断推动大模型的发展。

　　第三是如何打造一个新型算力高峰NICC新型智算中心。什么是新型智算中心，有几个特点，是以高性能GPU、AI加速卡为核心，以前插一个GPU卡叫智算中心，今天必须是以高性能的GPU和AI加速卡为核心设计的新型智算中心，同时必须以高速互联集群为目标，集约化建设单点超过E亿的超大规模算力基础设施。中国移动正在建设亚洲的最大的智算中心，会提供软硬件一体化的AI全栈环境，最终能支持整个AI大模型高效训练。新型智算中心将在五个方面，包括互联、算效、存储、平台、节能都体现出与以往数据中心的不同。

　　这一页给大家展开介绍什么是新型智算中心。新型智算中心我们认为会进入两个阶段，首先当前是集群时代，后面会迎来超级池化时代，呈现完全不同的特点。举例，在互联方面，过去在服务器上插一张GPU卡，网卡大概10G、25G就够了，到现在高速互联的时代，动辄400G、800G的带宽，是整个数量级的提升。在算效方面，到今天是8卡模组，很快会进入百卡互联的时代。今天大模型时代有海量数据，而且是非结构化的数据，所以会要求支持融合存储。在平台方面，过去是软硬一体，现在要构建云化平台，针对异构算力要考虑到如何实现跨架构迁移的问题，当然包括节能的问题，整个系统会步入一个新的液冷时代。比如我们在做智算中心设计的时候第一步要找一个合适的地方，要做楼宇加固，做整个能效提升，因为本身的算效太高，过去一个标准服务器机架是7KW，而现在一台服务器要到10KW，甚至更高，所以我们把机柜供电设计成40KW，否则放一台服务器都不行。

　　这边给出一个新型智算中心的架构，包括刚才讲到的存、算、网、管效方面都做了增强。首先算力，要强调几个大的算力芯片，包括CPU、GPU、DPU的高效协同，包括要单独考虑网络连接的问题，深化算力协同、新增一个算力原生层，要升级整个绿色节能，大家看到它确确实实跟传统的数据中心不同，我们也专门撰写了一本白皮书进行描述。

　　第三部分从五个新的角度给大家介绍一下为什么叫全新的设计，为什么面临很大的挑战？第一个互联技术，这个技术对智算中心太关键，最近做评测得到一个非常关键的数据，过去大家非常强调GPU，其实说实话GPU比CPU要简单，中国大概有20多家GPU的设计厂家，我们做过详细的评测，大家的算力都能达到比较高的水平，但是如果连在一起，相互之间的协作就出现很多问题，比如很多的模型，大概一千亿以上的模型，互联通信的带宽已经到百分之百，但是GPU的效率只有30%左右，可见关键的关键在于卡间的互联。互联分为两级，这张图片体现的是高速的计算互联，随着8卡到百卡的升级，未来会呈现server方的互联。高速互联总线就是解决大量的数据要在不同的GPU之间的搬迁的问题，这个其实是非常重要的技术，中间还有很多中国目前其实还有些卡脖子的技术，像Serdes技术，一个高速的串联转换是一个巨大的难题。这块百卡互联需要很多新的技术，比较遗憾的是中国这块的技术比较少。

　　第二个就是服务器间的以太网，服务器之间的互联也很重要，要高速无损的互联，会成为一个新的瓶颈。我们观察过随着算力的继续提升，会面临以太网固有的技术瓶颈，国际上都希望改变。中国移动大胆创新，改变以太网，发明了一个全调度以太网GSE技术，由过去的逐流分发变成逐包的转发。我们的技术发布比较及时，目前全球包括英韦达，微软UEC等等都已经在做，大家的想法其实很相似，我们也被全球评为全球三大主流技术，非常高兴在这个领域能进入全球主要的门派之一。因为改动以太网不太容易，我们希望大家能携手推动这个方向。

　　第二个就是存储，当前的存储面临很多的问题，大模型训练中很关键的一个卡点就是访存时延，效率问题，过去CPU旁边有DDR，大家能观察过GPU的设计，周围排布了很多HBM，高带宽内存，可见存储非常重要，当前DDR和HBM是孤立的。未来希望引入池化技术，进一步降低数据在内存和HBM之间的反复交互，进一步提高算效。

　　对于计算，我们也提了几个发展方向，希望进一步升级计算架构，包括算法和芯片协调，包括面向低时延的技术。另外，GPU和DPU可以进一步提高算效，将很多的算法卸载在我们的DPU上，能解决目前大量的数据处理的问题。更加中长期是希望能进入新赛道，存算一体，大家知道大模型训练AI训练90%的消耗都来源于访存，人脑是一个非常完美的形态，属于生成式AI计算，我们只吃饭就可以生成那么高的计算，这是一个非常好的架构。国内很多的技术非常成熟，希望能实现弯道超车，能在AI这个领域能突破原有的架构。

　　第四在平台方面，我们引入了一个新的算力原生平台，这个是我们原创性提出的。我们观察中国整个GPU市场，国产产品的份额大约在10%左右，大概20多家，整个产业相对碎片化，意味着每个GPU上面都有自己的使能层，比如英伟达比较有名的CUDA，很多的使能层是不一样的，框架主体都不一样。引入算力原生这一层，希望能解决碎片化的问题，这个其实是纯软件的编译技术，中国比较重视硬件，对于软件我也在国内找到很多团队，找到国内做编译器很有名的团队，攻关跨架构综合编译器、原生程序格式规范、原生运行时等等，希望能助力产业解决生态化碎片的问题，助力行业发展。

　　第五个是新节能技术，预计新型智算中心将是大规模引入液冷的生态，我们发现中国的液冷行业还存在不少问题，我们也希望通过五个统一能进一步解决液冷技术标准化的问题。因为本身涉及到机房改造，需要整个的液冷线路改造整个服务器的改造，这个问题是比较迫在眉睫，标准化的推进将进一步降低产业门槛。我们也认为可能从当前的冷板式液冷会过渡到浸没式液冷，随着算力的爆发，这个技术发展力助力整个行业的发展。

　　看到很多的技术有挑战，为了大模型的发展，我们大家需要携手共创一个新的智算中心的体系，以便在未来的发展中占有先机。希望大家能携手共筑一个大模型发展的智能底座，谢谢。