C114讯 8月28日消息(水易)数字经济提档加速,人工智能技术和应用日新月异,智算无疑成为推动技术升级和应用进化的核心引擎,千卡、万卡,甚至是十万卡智算中心的建设如火如荼。智算集群不是简单的将算力卡堆积,而是一个高度复杂的系统性工程,同时在算力多元异构的趋势下,需要网络创新来打通智算互联互通的大动脉。
作为拥有全栈智算能力的行业“领头羊”,新华三提出“算力×联接”的技术理念,以开放标准化联接响应智算对网络提出的要求,为智能算力的广泛应用提供了坚实的基础,从而释放智能算力的无限可能。
为什么需要标准化联接?网络联接又是如何助力智算能力的释放?带着一系列问题,在第八届未来网络发展大会期间,包括C114在内的媒体对新华三集团高级副总裁、网络产品线总裁曾富贵进行了采访。
开放:标准化联接促进智算创新
目前主流的智算方案几乎都是封闭“全家桶”式方案,每个厂家都有自己的标准、集合通信库等等,这一方式虽然效率有所提升,但也带来了大量的负面效果。曾富贵介绍,封闭的系统除了面临供应链的挑战外,还将带来更高昂的采购成本。
众所周知,智算中心的投资不是一锤子买卖,按需分批投资才是常态,同时基于成本和需求的考量,一个智算中心内必定会存在多种算力。而各种协议、标准等割裂不统一,给多元异构算力的互联互通带来极大挑战。如果无法形成合力,对投资是巨大的浪费。
这还只是考虑到单个智算中心,目前各区域、各行业都在建设智算中心,未来想要充分发挥和利用智能算力,跨广域的联接也至关重要。可以预想到的是,不同智算中心的方案更是千差万别,更难以互联互通。
曾富贵表示,新华三一直倡导标准化的联接、多元化的异构算力。依托在网络领域的深耕,基于通用的以太网技术,研究RoCE等标准化技术方案,利用标准化促进智算网络创新,保持持续发展的动力。
“越是标准的技术越有生命力,而封闭的生态最终会被淘汰。”曾富贵强调,虽然标准化也意味着充分的竞争,但竞争是整个产业高速发展的基础和技术创新的土壤。“只有大家走向开放解耦,整个产业才能持续深入发展,才不会扼杀创新。”
值得一提的是,开放标准的智算网络已经在产业界形成共识。目前新华三是超以太网联盟(UEC)的早期成员,同时还加入了高通量以太网联盟(ETH+ Consortium),中国移动主导的全调度以太网(GSE)等。新华三集团网络产品线系统规划与解决方案部总经理程臻介绍,虽然是不同组织,但是在技术栈和技术思想方面非常接近,只是实现手段的差异。
程臻进一步补充到,回顾通信行业的高速发展,得益于整个互联技术向以太化统一,这也是标准统一带来的魅力。“新华三的想法就是,以标准化来促进整个生态的健康,如果突破了多元异构算力的互联互通,未来算力的发展将会是大踏步前进。”
协同:算网存一体释放智算潜能
为了满足人工智能时代对算力的需求,除了大规模智算集群的建设之外,GPU的迭代速度也在加快。程臻表示:“GPU的更新速度是很快,但是其实单片GPU的能力,相对于大模型算力的需求来讲,仍然跟不上节奏。”
曾富贵同样指出,要支撑更大数据量,更快速度的计算任务,仅靠算力本身,或者说芯片的迭代已经很难跟上需求的快速增长,因此需要进行横向的技术整合,通过算网协同/算网融合技术,场景化负载均衡技术等,充分释放算力的性能,让算力应用更加高效。
如何来实现?程臻介绍,首先肯定是大规模互联技术,端口能力越大越好,从而提升传输效率,GPU的运算效率也会越高。目前400G端口已经非常普遍,800G也已经开始应用,1.6T端口也会很快面世。
第二是传送效率,智算的流量具有明显的特征,要发一起发,要停一起停,突发性很强,传统的网络路径负载分担技术难以适应这种变化,这也是为什么需要全新的负载分担技术。而新华三推荐的DDC技术,是基于信元的完全负载分担方式,不需要端侧配合,靠网络自身就能解决流量的均衡问题,满足各种智算场景需要。
第三是算、网、存一体化运维协同,全维度监控智算中心运行情况,一旦出现问题能够快速定位问题。毕竟目前算力的租赁和使用单位价格较高,客户都希望能在极短的时间内完成模型训练。“只要停下来,每停一分钟都是损失。”
可靠:多维度保障智算网络安全
可以看到,业界对于智算网络建设需要标准化的联接这一点,已经形成共识,产业界也在努力促成统一的标准来解决算力和联接的效率问题。与此同时,随着人工智能应用的不断涌现,如何确保数据和应用传输的安全问题也纷至沓来。
“新华三不仅是做算力和联接,我们也有自己的安全公司,在过去二十年里面积累了丰富的经验。”曾富贵介绍,从底层的联接、算力,到上层的应用软件,新华三的解决方案全部具备了内生安全的能力。
程臻表示,在算力网络应用落地的背景下,智算网络的安全边界已经消失,目前业界普遍认同的理念是网安融合和网安联动。一方面,安全和网络相辅相成,正因为没有了边界,整张网络都需要进行安全防护;另一方面,网络要配合安全,提供信息给各类监测分析设备和安全运营中心,提前识别安全风险,全局视角进行安全防护。
具体到网络层面,可以通过网络切片技术,对流量进行硬隔离;通过应用识别导入,再联动网络的服务链机制,把确定的流量指定的送到某个清洗服务或筛选服务;将网络的加密能力和端侧加密结合;通过鉴权机制,将攻击源控制在源端,不至于影响全局。
除了字面上的安全,智算中心的组成有服务器、存储、网络、光模块、高速线缆,任何地方出现故障,比如万分之一或者千分之一的丢包率,整个训推的效率会极速的下降。也就是说数据的传输效率决定算力供给效率,整个传输链路的高可靠性也是安全的重要组成部分。
除了防范外界攻击,提升系统本身的可靠性和稳定性也是至关重要的。曾富贵介绍,新华三的算、网、存一体化运维协同平台能够自动把问题暴露出来,同时将AI能力、大模型能力注入到网络和安全的设备和应用平台中,“以AI养AI,以AI促AI”,将告警事件与故障相关联,实现自动化处理,确保系统稳定运行,也能降低运维成本。
当然,安全不仅仅是系统本身的安全,在波诡云谲的国际形势下,供应链也面临着系统性的安全风险。这也是为什么需要通过联接的标准化,算力的多元化,来规避垄断和单一算力资源带来的风险,实现百花齐放的算力生态。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)