近日,公司打造的业界首个多DC分布式、非对称、超百公里协同训练智算网络在江苏移动长三角云计算中心完成测试,在3DC总距离1000公里的场景下,跨域分布式训练性能达到单智算中心训练性能的95%以上,标志着多DC协同训练技术落地验证可行,并逐步向商用迈进。
算力是数字经济时代的核心基础设施,对促进经济增长,推动科技进步以及满足日益增长的数据处理需求具有至关重要的作用。随着大模型训练需求的持续增长,算力需求和单地域(DC)的算力不匹配问题日益突出,将多地域(DC)内的碎片算力集中起来提升算力利用率、训练更大的模型成了多智算中心算间网络发展的必经之路。
本次公司多DC分布式协同训练试点测试,通过3DC及以上的场景互联、从对称组网到非对称组网、从环形组网到链型组网,验证了多DC之间非对称算力协同训练和百亿、千亿大模型在训练过程中链路中断对训练性能的影响等,更加符合现网场景。试点测试结果表明,智算分布式协同训练解决方案已经具备技术可行性。
本次试点,通过3DC参数面拉远组网,以单DC最优性能配置为基线,使用Llama2-70B、GPT3-175B作为输入模型,对比了跨DC协同不同参数的性能变化,测试了分布式智算集群对大模型训练性能影响的关键因素,支撑未来区域化智算集群商用可行性。该方案通过弹性灵活调度、广域无损技术实现多个智算中心互联,满足跨DC分布式智算集群灵活扩展,支撑客户大模型训练和按需部署。测试结果表明,三DC总距离千公里场景下,跨域分布式训练性能下降5%以内。
未来,公司将携手产业伙伴面向更大规模、更长距离的分布式智算网络持续探索,坚持走出一条符合产业需求的智算发展之路,提高数字经济时代整体产业的竞争力。
新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)