中国移动领衔AI算力部署 三大万卡智算集群年内商用

中国移动领衔AI算力部署 三大万卡智算集群年内商用
2024年05月18日 04:05 中国经营报

本报记者 谭伦 苏州报道

在AI浪潮推动下,中国在智能算力领域的部署正在提速。

近日,在中国移动算力网络大会上,中国移动副总经理高同庆宣布,今年将商用哈尔滨、呼和浩特、贵阳的三个万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练的需求。

万卡集群,是指规模数量由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,用于加速人工智能模型的训练和推理过程。由于AI大模型的训练极度消耗底层算力,因此,通过集成巨量规模的单卡算力芯片,成为当前算力基础设施部署的主流趋势。

目前,在国际上,包括微软、Google、Meta等AI领域的巨头,都已落子超万卡集群的项目部署。如Meta于2022年推出了拥有16000张算卡的超级集群中心;Google于2023年推出了一个拥有2.6万张算卡的Compute Engine A3;而持有OpenAI的微软更是传出正在进行百万规模算卡集群的筹建。

在国内,由于意在争夺AI市场的厂商数量众多,竞争态势则更为激烈。除以中国移动为代表的运营商外,2023年,蚂蚁集团宣布已建成万卡异构算力集群。此外,包括字节跳动、阿里、百度、华为及科大讯飞等在内的互联网和AI头部企业均在发力万卡集群的建设。

运营商成为超算新势力

中国移动在超算领域的正式入主,除进一步提升中国算力产业规模外,也宣告了通信运营商正在成为中国算力领域的又一股代表力量。

除中国移动外,《中国经营报》记者注意到,今年1月,中国电信宣布将在上海规划建设1.5万张卡规模的算力集群,其总算力超4500P,这也将是国内首个超大规模国产算力液冷集群。

对此,Omdia电信战略高级首席分析师杨光向记者表示,大模型本身的训练需求是驱动国内万卡集群加速部署的主要背景。运营商作为我国算力基础设施的主要提供商,融入这一进程是大势所趋。

据中国移动方面测算,大模型所使用的数据量和参数规模呈现“指数级”增长,2018 年 BERT 模型仅有1.1亿个参数,在2021年面世的GPT-3达到了1750亿个参数。随着更加先进的模型结构出现,模型参数迈入万亿规模。预计在未来的2—3年,随着 AI技术的进步和算力提升,大预言模型的尺度定律还将延续,助推模型参数向十万亿进军。

参数的剧增,也带来了对巨量算力和能源的需求。公开数据显示,GPT-3训练所消耗的电力,相当于美国约121个家庭一整年的用电量。GPT-4 拥有16个专家模型共1.8万亿参数,一次训练需要在大约25000个A100上训练90到100天。中国移动相关负责人告诉记者,这使得建设更高密度的算存硬件、更高性能算力的万卡集群成为刚需。

同时,杨光认为,作为产业链最上游厂商,运营商承担着网络基础设施的建设者和主导者角色,其投资驱动的模式也较为明显。在5G网络建设投资高峰已过的背景下,寻找新的增长点是必然趋势,而结合官方战略和财报数据观察,云网算力已然是运营商投资的主要方向。

三大运营商最新公布的2023年度财报显示,中国移动数字化转型收入对通信服务收入增量贡献达到89.7%,成为收入增长第一驱动力;中国电信产业数字化业务收入同比增长17.9%,占服务收入比达到29.9%,对服务收入的增量贡献从2021年的51.6%提升至70.4%;中国联通算网数智业务收入752亿元,占新增收入的比重超过50%。

杨光指出,不同于传统算力服务器的部署,万卡集群对企业资金体量和技术的门槛要求很高,这也是除互联网行业的头部企业外,运营商能够成为主要玩家的重要原因之一。

“作为网络基础设施服务商,电信运营商在机房资源和配套设施上的天然优势是非常明显的,这也是目前运营商云业务增长强劲的基础,而且有助于万卡集群的部署。”杨光表示。

具体部署方面,高同庆表示,随着大模型训练逐渐转向大规模行业应用,普遍存在的推理需求持续涌现,中国移动将按需在1500个边缘节点部署推理算力,形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。

软件生态是最大挑战

各路势力的大幅涌入,虽然让中国的超算部署在纸面规模上再进一步,但在具体落地方面,需要解决的挑战仍然严峻。

首先,与全球巨头相比,中国算力的万卡部署需要解决的第一个问题来自算卡硬件自身。由于全球超万卡集群的建设都处于起步阶段,部署模式都以英伟达GPU及配套设备为主。而中国厂商目前已无法获得英伟达的旗舰高性能GPU,因此,AI芯片的国产化,成为万卡集群建设需要解决的首要痛点。

“基于英伟达GPU的系统硬件性能好,编程生态好,这是事实,但目前价格暴涨,一卡难求。”中国工程院院士郑纬民在中国移动算网大会期间指出,国内自研AI芯片虽然起步较晚,但已成为也必须成为当前国内万卡集群建设的主力。

公开信息显示,国产AI芯片产业在近两年快速成长。包括华为、海光、寒武纪、摩尔线程在内的公司已成长为国产AI芯片的头部梯队。其中,华为昇腾被视为国产AI专用芯片的代表,摩尔线程则被视为在功能上对标英伟达的国产GPU芯片头部创业企业,二者均出现在此次中国移动算卡的供应名录中。

郑纬民表示,单从算力性能上计,国产AI芯片单卡性能能够达到英伟达的六七成即可,而这一点目前基本能够实现。但由于当前国产AI芯片的生态系统不够完善,因此应用不足。而万卡算力之间的调度和调优非常考验软件能力,所以当前国产芯片最重要的是软件生态的建立和培育,以实现算卡间的软硬协同。

“当前我国有14个国家级超算中心,机器使用率仍有上升空间,采用软硬件协同的设计在超算机器做大模型训练成为可能。”郑纬民指出,因此国内AI芯片需要进一步加强底层研发,做好包括编程框架、并行加速、通信库在内的软件研发工作。

对此,国内AI厂商已经开始针对性地发力。记者了解到,为了支撑千卡乃至超万卡的大规模算力集群,摩尔线程于2023年推出了首个国内产千卡千亿模型训练平台——夸娥智算集群,该模型深度参与中国移动大模型训练与推理环节,可以为大模型训练提供稳定、高效、高兼容的算力支撑。

“百卡或更小规模都是实验性的,千卡才是大集群的基本单元,只有千卡及以上才能满足一些基础模型的算力需求,这也是推出夸娥智算集群的目标设定。”摩尔线程相关负责人向记者表示,为了完善千卡甚至万卡的集群能力,摩尔线程还于2023年发布了第三代芯片“曲院”,以自研MUSA架构为核心,布局了从硬件集群、集群管理调度平台到大模型服务等软硬一体的全栈集群解决方案。

杨光认为,随着国内万卡集群的部署提速,国内AI芯片厂商的各项实力会在此过程中获得迅速提升。“自主生态的构建对于国产超算是最重要的一步,随着今年万卡集群在国内多点开花,包括国产AI芯片在内的整体生态也会得到较大改善。”杨光表示。

海量资讯、精准解读,尽在新浪财经APP
集群 中国移动 运营商 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 05-24 汇成真空 301392 --
  • 05-21 万达轴承 920002 20.74
  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 新浪首页 语音播报 相关新闻 返回顶部