中国移动领衔AI算力部署三大万卡智算集群年内商用|集群_新浪财经

本报记者谭伦苏州报道

在AI浪潮推动下，中国在智能算力领域的部署正在提速。

近日，在中国移动算力网络大会上，中国移动副总经理高同庆宣布，今年将商用哈尔滨、呼和浩特、贵阳的三个万卡集群，总规模近6万张GPU卡，充分满足大模型集中训练的需求。

万卡集群，是指规模数量由一万张及以上的加速卡（包括GPU、TPU及其他专用AI加速芯片）组成的高性能计算系统，用于加速人工智能模型的训练和推理过程。由于AI大模型的训练极度消耗底层算力，因此，通过集成巨量规模的单卡算力芯片，成为当前算力基础设施部署的主流趋势。

目前，在国际上，包括微软、Google、Meta等AI领域的巨头，都已落子超万卡集群的项目部署。如Meta于2022年推出了拥有16000张算卡的超级集群中心；Google于2023年推出了一个拥有2.6万张算卡的Compute Engine A3；而持有OpenAI的微软更是传出正在进行百万规模算卡集群的筹建。

在国内，由于意在争夺AI市场的厂商数量众多，竞争态势则更为激烈。除以中国移动为代表的运营商外，2023年，蚂蚁集团宣布已建成万卡异构算力集群。此外，包括字节跳动、阿里、百度、华为及科大讯飞等在内的互联网和AI头部企业均在发力万卡集群的建设。

运营商成为超算新势力

中国移动在超算领域的正式入主，除进一步提升中国算力产业规模外，也宣告了通信运营商正在成为中国算力领域的又一股代表力量。

除中国移动外，《中国经营报》记者注意到，今年1月，中国电信宣布将在上海规划建设1.5万张卡规模的算力集群，其总算力超4500P，这也将是国内首个超大规模国产算力液冷集群。

对此，Omdia电信战略高级首席分析师杨光向记者表示，大模型本身的训练需求是驱动国内万卡集群加速部署的主要背景。运营商作为我国算力基础设施的主要提供商，融入这一进程是大势所趋。

据中国移动方面测算，大模型所使用的数据量和参数规模呈现“指数级”增长，2018 年 BERT 模型仅有1.1亿个参数，在2021年面世的GPT-3达到了1750亿个参数。随着更加先进的模型结构出现，模型参数迈入万亿规模。预计在未来的2—3年，随着 AI技术的进步和算力提升，大预言模型的尺度定律还将延续，助推模型参数向十万亿进军。

参数的剧增，也带来了对巨量算力和能源的需求。公开数据显示，GPT-3训练所消耗的电力，相当于美国约121个家庭一整年的用电量。GPT-4 拥有16个专家模型共1.8万亿参数，一次训练需要在大约25000个A100上训练90到100天。中国移动相关负责人告诉记者，这使得建设更高密度的算存硬件、更高性能算力的万卡集群成为刚需。

同时，杨光认为，作为产业链最上游厂商，运营商承担着网络基础设施的建设者和主导者角色，其投资驱动的模式也较为明显。在5G网络建设投资高峰已过的背景下，寻找新的增长点是必然趋势，而结合官方战略和财报数据观察，云网算力已然是运营商投资的主要方向。

三大运营商最新公布的2023年度财报显示，中国移动数字化转型收入对通信服务收入增量贡献达到89.7%，成为收入增长第一驱动力；中国电信产业数字化业务收入同比增长17.9%，占服务收入比达到29.9%，对服务收入的增量贡献从2021年的51.6%提升至70.4%；中国联通算网数智业务收入752亿元，占新增收入的比重超过50%。

杨光指出，不同于传统算力服务器的部署，万卡集群对企业资金体量和技术的门槛要求很高，这也是除互联网行业的头部企业外，运营商能够成为主要玩家的重要原因之一。

“作为网络基础设施服务商，电信运营商在机房资源和配套设施上的天然优势是非常明显的，这也是目前运营商云业务增长强劲的基础，而且有助于万卡集群的部署。”杨光表示。

具体部署方面，高同庆表示，随着大模型训练逐渐转向大规模行业应用，普遍存在的推理需求持续涌现，中国移动将按需在1500个边缘节点部署推理算力，形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。

软件生态是最大挑战

各路势力的大幅涌入，虽然让中国的超算部署在纸面规模上再进一步，但在具体落地方面，需要解决的挑战仍然严峻。

首先，与全球巨头相比，中国算力的万卡部署需要解决的第一个问题来自算卡硬件自身。由于全球超万卡集群的建设都处于起步阶段，部署模式都以英伟达GPU及配套设备为主。而中国厂商目前已无法获得英伟达的旗舰高性能GPU，因此，AI芯片的国产化，成为万卡集群建设需要解决的首要痛点。

“基于英伟达GPU的系统硬件性能好，编程生态好，这是事实，但目前价格暴涨，一卡难求。”中国工程院院士郑纬民在中国移动算网大会期间指出，国内自研AI芯片虽然起步较晚，但已成为也必须成为当前国内万卡集群建设的主力。

公开信息显示，国产AI芯片产业在近两年快速成长。包括华为、海光、寒武纪、摩尔线程在内的公司已成长为国产AI芯片的头部梯队。其中，华为昇腾被视为国产AI专用芯片的代表，摩尔线程则被视为在功能上对标英伟达的国产GPU芯片头部创业企业，二者均出现在此次中国移动算卡的供应名录中。

郑纬民表示，单从算力性能上计，国产AI芯片单卡性能能够达到英伟达的六七成即可，而这一点目前基本能够实现。但由于当前国产AI芯片的生态系统不够完善，因此应用不足。而万卡算力之间的调度和调优非常考验软件能力，所以当前国产芯片最重要的是软件生态的建立和培育，以实现算卡间的软硬协同。

“当前我国有14个国家级超算中心，机器使用率仍有上升空间，采用软硬件协同的设计在超算机器做大模型训练成为可能。”郑纬民指出，因此国内AI芯片需要进一步加强底层研发，做好包括编程框架、并行加速、通信库在内的软件研发工作。

对此，国内AI厂商已经开始针对性地发力。记者了解到，为了支撑千卡乃至超万卡的大规模算力集群，摩尔线程于2023年推出了首个国内产千卡千亿模型训练平台——夸娥智算集群，该模型深度参与中国移动大模型训练与推理环节，可以为大模型训练提供稳定、高效、高兼容的算力支撑。

“百卡或更小规模都是实验性的，千卡才是大集群的基本单元，只有千卡及以上才能满足一些基础模型的算力需求，这也是推出夸娥智算集群的目标设定。”摩尔线程相关负责人向记者表示，为了完善千卡甚至万卡的集群能力，摩尔线程还于2023年发布了第三代芯片“曲院”，以自研MUSA架构为核心，布局了从硬件集群、集群管理调度平台到大模型服务等软硬一体的全栈集群解决方案。

杨光认为，随着国内万卡集群的部署提速，国内AI芯片厂商的各项实力会在此过程中获得迅速提升。“自主生态的构建对于国产超算是最重要的一步，随着今年万卡集群在国内多点开花，包括国产AI芯片在内的整体生态也会得到较大改善。”杨光表示。