近日,在中国移动集团公司指导下,中国移动研究院联合中国移动黑龙江公司在全球运营商最大单集群智算中心——中国移动(哈尔滨)数据中心完成首个面向PP(流水线并行)训练的OTN承载百公里级智算分布式协同现网技术试验。本次技术试验首次完成了基于800G OTN的104km跨智算集群分布式PP训练,实现了等同单节点训练效率98%以上的高效协同训练,是业界首次百公里级跨集群PP训练可行性技术验证探索。
随着智算集群规模向超万卡演进,单智算节点的持续扩容将面临电力供应、机房空间的巨大挑战,而且智算中心分地域、分时期、分阶段建设现象较为普遍。智算分布式协同是破解单节点集中部署受限、算力资源孤岛等难题的重要解决方案。而如何将分布式部署的智算节点进行高效的互联,充分发挥算力资源的最大效能,是业界亟需研究的关键问题。OTN具有大带宽、稳定低时延、高可靠等传输和组网技术特点,已广泛应用于骨干传送和城域传送网络,是构建跨集群分布式训练的潜在互联技术。而分布式智算对光网络的新需求与采用的DP(数据并行)、PP等训练并行模式直接相关,其中,PP是基础大模型训练的最常用并行方式之一,相比DP具有通信频次高、通信时间不可全部掩盖等更高难度,其拉远可行性在业界存在较大分歧。
中国移动研究院面向智算分布式协同场景持续开展技术创新,完成业界首个面向PP训练的OTN承载百公里级智算分布式协同技术现网试验。在试验中基于800G OTN互联的两个智算集群上运行700亿级参数的大型基础语言模型,在64张GPU卡、4个PP域分别在相距104km的两个节点部署场景下,实现了等同单节点训练效率98%以上的高效协同训练,是业界首次验证了OTN承载基于PP的百公里跨集群训练可行性,为分布式智算技术演进提供了全新技术路线和详实试验数据。此外,还创新提出了面向智算分布式协同的OTN无损倒换技术方案,通过芯片级算法实现传输链路断纤、误码时训练效率的无损和无感知。
自2023年起,中国移动研究院联合国内合作伙伴,开展跨集群分布式训练互联技术攻关,创新提出基于OTN的智算分布式协同架构,首次完成2-100公里不同距离多场景下OTN承载分布式智算技术试验,相关成果在光通信顶会ECOC发表。中国移动后续将围绕智算分布式协同深入推进关键技术攻关、原型研发与试验验证,探索分布式智算中心新模式。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)