北京电信打造高品质智算广域网,百公里无损联算服务首都新发展

北京电信打造高品质智算广域网,百公里无损联算服务首都新发展
2024年12月24日 19:49 飞象网

【中国,北京,2024年12月23日】在由中国信息通信研究院主办的智算IP广域网产业交流会上,中国电信股份有限公司北京分公司(以下简称“北京电信”)云网发展部规划总监姚凌分享了“打造高品质智算广域网,百公里无损联算服务首都新发展”的演讲。姚凌表示北京电信通过智算广域网将京津冀三地算力中心资源整合,探索多算力中心协同完成超大模型训练的多点共算新模式。采用新型流级拥塞控制,无损调度和深度负载均衡智算广域网技术,保证网络传输吞吐率95%以上,从而实现跨智算中心算效不下降,高效服务人工智能产业发展需求。

算力需求每年增长10倍,运营商规划构建万卡集群,协同完成超大模型训练。受供电、机房环境等因素限制,单智算中心物理环境不满足万卡集群的建设需求。通过广域网络联接跨几百到上千公里的异地算力中心,会面临两个关键技术点挑战: 一是跨DC大模型训练极端情况流量瞬时并发达上千Tbps,需要考虑收敛比和训练效率之间平衡最优比。二是RDMA长距传输对于丢包十分敏感,千分之一丢包会导致网络吞吐率下降,影响算卡效率并造成资源浪费。

北京电信通过新一代智算路由器打造智算广域网,采用新型流级拥塞控制技术,可精准快速识别网络发生拥塞或故障,并基于流进行拥塞控制,确保拥塞不扩散到全网。同时采用路由器广域无损调度和负载均衡技术,避免数据丢包导致算卡计算效率下降,现网实际验证跨100公里长距算效仅降1%。

姚凌表示北京电信后续将持续探索多DC协同技术研究,目前正在联合云公司开展智算拉远四阶段验证。基于息壤慧聚智能模型服务平台,验证百川等真实客户模型拉远效果,逐步推进智算拉远方案走向商用。

广域网
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

0条评论|0人参与网友评论
最热评论
--------

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片