12月23日上午,以“打造超弹性无损智算IP广域网,加速迈向智能时代”为主题的智算IP广域网产业交流会在北京成功举办。会上,中国信息通信研究院技术与标准研究所互联网中心主任高巍进行了《智算广域网发展思考》的分享。
高巍介绍到,人工智能是全球关注的产业热点,在政策和市场的驱动下,国内建设了很多智算资源池,尤其运营商在全国各地布局多级算力资源池体系,如何充分发挥这些智算资源的作用,使其成为各个行业能够使用的智算服务,成为了当务之急,在这里网络需要发挥重要作用,“网效”与“算效”需要提升互促。
智算业务对网络的要求相比传统网络有很大差别。首先,业务特征不同决定了对网络质量要求不同,例如,传统互联网业务对丢包的容忍度在10-2级别,而以RDMA协议承载的智算业务对网络丢包的容忍度在10-7级别,差了5个数量级。其次是流量模型不同,传统业务以海量小流量(“蚂蚁流”)为主,现有网络的负载均衡也是以此前提来设计的,而智算业务是GB级的大流量(“大象流”),将对网络带宽利用率造成很大的挑战。再次,网络服务模式需求不同,当前企业更多是使用固定带宽的网络连接服务,而智算业务的数据传送往往是需要短时大带宽,对网络弹性服务的要求更高。如何通过提高网效,充分发挥算效是现在非常重要的命题。
智算广域网是支撑人工智能计算业务全生命周期的广域网络,是对运营商城域网和骨干网的全面升级,包括支撑企业/行业大量样本传送的入算网络,以及支撑智算中心之间协同训练(参数面互联)的算间网络,将支撑全社会智算资源的高效利用与服务。
当前国内外运营商和互联网纷纷启动智算广域网相关的研究和实践,相关技术也成为IETF、ITU-T等国际标准组织的热点,国内通信标准化协会网络和业务技术委员会也开展了相关的标准研制,智算广域网络标准行标立项5项,国标《智算广域网络总体技术要求》已通过立项预讨论。
高巍介绍了智算广域网的主要场景,包括:1、大样本的快速入算,通过网络带宽动态调度和对大象流的有效负载均衡,实现海量样本数据的快速入算,充分利用高带宽的网络资源。2、敏感样本的边传边训,一些行业样本数据对数据安全要求很高,不希望第三方算力资源进行数据的存储,需要网络实现长距离广域无损传输,直接通过RDMA协议进入算力资源的内存进行训练计算。3、跨DC协同训练,随着大模型参数快速增长,单体DC难以满足算力或能源的需求,需要广域网络连接不同的数据中心进行协同训练,对网络带宽需求很大,且需要保证严格无损,目前业界正在开展相关实验。4、业务推理及模型分发,需要网络带宽灵活调整,并具备安全隔离能力。
未来智算广域网的重点技术研究方向包括广域无损调度算法、跨DC网络的精准流控、广域拥塞控制、智能流量识别与拆分、智算业务可视运维等等。
最后,面向智算广域网未来的发展,高巍建议产业界共同开展技术创新,凝聚产业共识,加快相关规范标准的研究,并通过向业界广泛征集典型案例,不断积累经验,相互借鉴,加快智算广域网产业和业务的成熟。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)