记者实访:走进全球运营商最大单体智算中心

记者实访:走进全球运营商最大单体智算中心
2024年08月19日 17:49 通信产业网

大草原上的数智新基建。

当提及内蒙古,“风吹草低见牛羊”的草原牧歌画卷便浮现于脑海。不过从内蒙古自治区首府呼和浩特中心城区向南行进20多公里,看见的不仅仅是青山绿水大草原,还有一座加速新质生产力发展的新一代数智基础设施。

中国移动智算中心(呼和浩特)位于中国移动呼和浩特数据中心内,是全球运营商最大单体智算中心。

党的二十届三中全会通过的《中共中央关于进一步全面深化改革 推进中国式现代化的决定》对新一代信息技术、人工智能、数据基础设施的发展和建设擘画了新蓝图。智算中心是新型数字信息基础设施之一,扮演的不仅是算力生产者和提供者的角色,也是数字经济发展的核心“底座”。

作为云计算领域的国家队,中国移动以大算力赋能大模型,统筹规划了“N+X”智算中心布局。截至今年6月底,中国移动已有13个智算中心节点投产,智算总规模达到19.6EFLOPS。其中,中国移动智算中心(呼和浩特)智算规模高达6.7EFLOPS,是全球运营商最大单体智算中心。

日前,《通信产业报》(全媒体)在该智算中心实际投产6个月后进行了一次实地采访,探索这座草原之上的智算基础设施。

中国移动智算中心(呼和浩特)智算规模高达6.7EFLOPS。

绿电比例达80%

今年7月,国家发展改革委等部门印发的《数据中心绿色低碳发展专项行动计划》要求,到 2025年底,全国数据中心平均电能利用效率(PUE)降至1.5以下。中国移动积极响应国家绿色智算中心建设要求,从制冷、绿电、能耗管理三个方面,构建节能创新体系,在保障智算中心安全稳定可靠运行的基础上,实现中国移动智算中心(呼和浩特)绿色节能。

中国移动智算中心(呼和浩特)从制冷、绿电、能耗管理三个方面,构建节能创新体系,在保障安全稳定可靠运行的基础上,实现绿色节能。

在制冷方面,该中心首次大规模引入前沿的冷板式液冷方案,并配套闭式冷却塔、小母线等新型节能技术。数据中心园区内95%以上设备采用了新型空调末端,能够实现机柜级就近制冷,缩短了空调送风距离,解决了传统数据中心中常见的局部过热问题,显著提升了整体制冷效率和能效比。

在绿电使用方面,结合内蒙古当地政策指引、丰富的绿电资源、内部偏差率控制、准确掌握电力市场动态及时交易和调整等举措,最大程度提高绿电使用比例。据介绍,该智算中心2023年使用绿电5.25亿度,绿电比例从2019年的41%提升至2023年的55%,当前该中心绿电使用比例更是已达到80%

在能耗管理方面,该中心构建了一套计量规范、准确度高、分析精准的能耗管理平台,从“监”“管”“控”三个层面实现数智化管控。在监测层,多维度搭建智能化数据底座,为能耗分析及AI建模提供基础数据服务。在管理层,分场景特征构建能耗管理模型,清晰管理能耗情况。在控制层,引入“专家经验”“AI算法”两种调优方式,多步骤实现能耗动态调优。

凭借一系列措施的落地,该智算中心将PUE值大幅压降到1.15,远低于国家设定的目标值,处于国内绿色智算领域的领先地位。

通过一系列措施,中国移动智算中心(呼和浩特)PUE值大幅压降到1.15,处于国内绿色智算领域的领先地位。

本土化率达85%

作为移动信息现代产业链链长,中国移动积极发挥串联、协同、带动作用,坚持自主技术创新,紧密合作本土智算设备和软件企业,建设了以中国移动智算中心(呼和浩特)为代表的首批智算中心,培育和繁荣国产人工智能算力产业生态。

在软硬件设备方面,中国移动已实现五类国产化智能算力芯片落地与实际应用,特别是在中国移动智算中心(呼和浩特),智算服务器整机、软件主要由中国厂商提供,智算芯片也大量采用本土厂商产品。据统计,该数据中心本土化算力占比已超过了85%

中国移动智算中心(呼和浩特)本土化算力占比已超过了85%。

在多元异构算力整合方面,中国移动持续攻坚基于多芯片的异构混训技术,破解多元异构算力竖井式生态隔离问题,实现多元芯片的算力生态整合。目前“双芯”混训最优训练效率可达90%以上,“三芯”混训也已初步运行成功。

在算力网络底层技术方面,中国移动为践行“为国建云”使命,解决关键技术“卡脖子”问题,于2023年底推出了OpenCOCA开源项目,打造“一机多芯、一卡多平台”的基础设施,实现统一接口接入不同硬件,屏蔽底层多元硬件差异,更好地赋能千行百业。

在智算生态培育方面,中国移动始终注重聚合产业链上下游的力量,通过开放合作、协同创新等方式,不断繁荣中国算力产业。中国移动还积极与知名企业、高校、研究机构等建立合作关系,共同探索算力技术的前沿领域,推动我国算力产业向更高水平迈进。

中国移动积极推动国产智算生态构建、促进产业协同与技术创新,也将继续发挥央企引领与带动作用,促进中国算力产业持续健康发展。

攻克三大挑战

中国移动智算中心(呼和浩特),不仅是国内首个超万卡国产液冷智算集群,而且也是支撑中国移动对内训练九天大模型、对外满足各行业客户智算业务需求的重要智算基础设施。

不过,与大多数智算中心一样,该中心在建设和运行初期面临三大挑战。首先,在智算中心初期建设运维中,GPU卡故障频发、网络链路不稳定、软件系统存在缺陷等问题比较突出。其次,在多租户环境下,要确保模型的训练效率、资源利用率,并实现数据隐私与安全的有效隔离。最后,在多平台共存条件下,要实现已训练好模型在多种平台间无缝迁移,且保持训练精度与性能不变。

针对超万卡集群调优和运维问题,中国移动采取了三大关键举措,一是打造自动交付工具,实现标准化流程、自动化部署与高效协同作业,提升部署效率与服务质量;二是研发智能管控平台,实现对AI训练任务的全生命周期管理,保障训练高效稳定进行;三是组建专业集成调优团队,专注于模型跨平台迁移、训练效率优化等关键环节,提供全栈调优服务。

针对多租户模型高效训练问题,中国移动首创容器弹性资源管理KOSMOS架构,实现租户间安全隔离,确保多租户环境下的数据隐私与操作独立性,并融合交换机亲和性的任务调度机制,提升AI任务的启动速度,使国产万卡算力资源分钟级拉起,并确保AI任务内节点间的通信链路最优,从而大幅提升整体计算效率与资源利用率。

在模型跨平台迁移方面,中国移动深度整合硬件平台与AI软件栈,推动大模型关键技术在国产化异构算力上的迁移适配。当前已完成16个系列32款模型的训练、微调、推理适配,形成一整套模型迁移工具,可实现不同硬件平台模型训练权重的迁移与接续训练。同时为了对齐NVIDIA环境下的训练推理能力,研发精度与性能分析工具,精准定位并优化迁移中的进度与性能问题,保障迁移后训练精度与性能。

该智算中心在面临多重挑战下,实现了技术突破与服务优化,不仅满足了内外部智算业务需求,还为中国万卡智算集群的建设和运维积累了经验。

该智算中心是中国移动对内训练九天大模型、对外满足各行业客户智算业务需求的重要智算基础设施。

当前,作为数智时代生产力之源的算力,正定义着新的生产力形态和国家治理模式。有研究表明,计算力指数平均每提高1个百分点,数字经济和国内生产总值(GDP)将分别增长3.3‰1.8‰

随着数字经济蓬勃发展,算力需求也日益激增,国产算力迎来重大发展机遇。据国务院国资委,截至2024年3月底,中央企业智能算力规模已超过27EFLOPS,到6月底同比实现翻倍增长。

作为信息通信央企,中国移动相关负责人表示,该公司将持续完善智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网,为社会提供更加丰富、更加优质的智能算力服务。

中国移动智算中心(呼和浩特)机房外景。

采写:高超

编辑:高超

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-26 富特科技 301607 --
  • 08-23 益诺思 688710 --
  • 08-20 成电光信 920008 10
  • 08-19 佳力奇 301586 18.09
  • 08-15 小方制药 603207 12.47
  • 新浪首页 语音播报 相关新闻 返回顶部