中国电信李俊杰:分布式智算集群组网要解决IP与光协同管控问题

中国电信李俊杰:分布式智算集群组网要解决IP与光协同管控问题
2024年09月12日 09:35 C114通信网

C114讯 9月12日消息(水易)第25届中国国际光电博览会在深圳开幕,同期举办的“算力时代新型光传送技术论坛”期间,中国电信研究院副院长李俊杰表示,智算时代,算力需求从线性增长变为指数级增长,未来集群向十万卡级甚至百万卡级演进以支撑模型参数扩展。

AI大模型训练等工作需要在大量的计算单位中传递海量数据,打造大带宽、低时延、高可靠的高品质智算互联光网络基础设施成为关键。在李俊杰看来,智算时代,光通信技术迎来一系列新技术需求和新应用机会。

智算中心内:要重视光模块可靠性

目前数据中心内部,Spine-Leaf架构成为主流,大幅提升了数据互连的效率。不过,随着AI需求的持续增长,需要对架构持续创新,Full-mesh Spine-leaf架构的出现对对光模块的需求显著增加。

当前,数据中心内800G光模块逐渐成为主流,1.6T光模块应用需求开始萌芽,3.2T光模块技术开始研究。核心电口方面,单通道100G serdes速率技术成熟,单通道200G预计2025年启动应用。标准层面,800G光模块标准基本完成,1.6T光模块标准处于研究阶段。

与此同时,随着光模块速率持续升级,在功耗控制、单比特传输成本优化、传输时延等方面对光模块提出了更高的要求,发展低成本、低功耗和低时延的高速光模块势在必行。李俊杰表示,800G/1.6T会有更多LPO/LRO的创新,到了3.2T以上会走向CPO。

另外,大模型训练的高可靠要求传递到了光模块,智算中心光模块可靠性要求或许超过电信级。李俊杰指出:“只要可用率提升很多,训练带来的收益会更大。”据了解,IPEC立项电信级光模块可靠性要求标准项目,促进电信级光模块的质量提升和市场发展。

想要进一步降低设备的处理和转发时延,OCS凭借全光交换优势,可为智算中心内部互联提供一种新型组网方案。据介绍,目前互联网公司对OCS的探索和实践更为靠前,主要有压电陶瓷方案、MEMS方案等等,不同技术方案的可靠性、切换时间、端口数量、成本、功耗等性能需进一步验证。

智算中心间分布式集群成为热点

超大规模GPU集群成为大模型训练的必要条件,需求指数级增长对AI基础设施带来极大挑战,特别是电力供应/机房空间成为单体大规模智算建设的瓶颈。对此,业界正在探索多数据中心互联提供分布式训练环境。

目前,骨干网已经入400G C+L时代,800G可覆盖城域应用场景,1.2T可覆盖数据中心光互联场景。与此同时,受智算业务大带宽的需求,S波段或成为下一代波段扩展的方向。然而,光放大器、多波段下的功率管理,以及系统级性能优化仍然是挑战。

“我们做所有的事情都是需要商业闭环,一定是真需求、真方案,而且是性价比可靠的方案。”李俊杰强调,技术最终要为业务服务,比如说多波段,技术人员肯定会觉得这么长的频谱非常完美,也可以实现,不过是否能够商业闭环,需要认真考虑。

中国电信积极探索800G以及扩展波段传输,800G实现省际热点区域的高速传输;1.2T可以支持DCI大容量互联;S+C+L能够进一步提高单纤可支持的最大传输容量。

除了骨干网技术的升级,空芯光纤等新型传输介质,未来在更长距离智算拉远场景,可进一步优化传输链路时延。中国电信联合产业界伙伴完成数据中心间10km空芯光缆的管道铺设与户外熔接等,验证了其部署的可行性。李俊杰介绍,空芯光纤还需要解决光纤拉丝长度距离短、对应力敏感、熔接回损大、运维难度大等挑战,才能加速商用进程。

据了解,中国电信完成了业界首例现网140公里、异地三机房分布式训练验证,实验表明,百亿参数模型在百公里内的64卡级(6.4T带宽)分布式训练性能达到集中式训练性能的95%以上。

对于多点智算集群大规模组网后续优化思路,李俊杰表示可以通过增加网络互连带宽和提高系统可靠性来探索最佳解决方案,实现无损智算传输网络。此外,能否广泛部署需要解决IP与光协同管控问题,计算技术和网络技术的协同是提高分布式智算集群效率的关键。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片