伴随着智算时代的到来,生成式AI的发展对算力的需求爆发增长。随着模型参数量越来越大,大规模AI计算进入万卡时代,面临计算能力不足、训练成本高等问题。原因之一就是传统网络效率低下,导致多节点间的通信效率低。在训练基础模型中,网络通信往往占到20%到40%的时间,在进行梯度和参数同步时,浪费了宝贵的算力资源。
X400超级AI以太网专为AI大模型打造
不久前,浪潮信息「X400超级AI以太网」基于Spectrum-X平台,通过领先的端网协同技术,为AI大模型训练网络建设开辟了一条新道路,从性能、可扩展性、稳定性和用户体验四个方面应对客户面临的挑战,实现AI业务的最佳效率,将客户在纠结采用以太还是专用网络的状态中拯救出来。与此同时,超级AI以太网交换机X400采用开放架构,遵循S3IP-UNP规范设计,实现软硬件分层解耦,通过构建网络开放生态,加速客户业务创新。16K张GPU卡计算规模下的GPT3模型训练实测中,超级AI以太网实现性能突破,达到传统RoCE的1.6倍。
网络性能是核心,也是满足AI大模型训练的基础。X400超级AI以太网方案采用了X400加智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技术,实现交换机和网卡更加紧密的配合,为AI大模型提供零丢包、无阻塞的全链路交换网络,机间互联性能400G,有效带宽从传统的60%提升到95%,性能达到传统RoCE的1.6倍。
网络侧:传统的ROCE方案在进行转发路径选择时采用静态hash计算方法,没有考虑路径负载状态,导致多条流可能选择相同的路径,从而导致了数据包的堆积,降低了网络吞吐率。X400在交换机侧采用包喷洒技术,提供基于数据包的细粒度路由调度,在网卡侧提供保序服务,实现构建整体端到端的无阻塞网络,相比于传统的RoCE方案仅在交换机上进行路径选择和拥塞控制的方式,将彻底改善网络流量的负载均衡问题,全面优化流量的路径分布。
端侧:包喷洒会带来一个新的问题,就是一个流里的若干个数据包,可能会选择走不同的路径,导致数据包到目的端可能会乱序,如何将乱序到达的数据包重新编排、纠正,则依赖于智能化网卡的保序服务,通过DDP(直接数据放置)技术实现乱序重排,再转发给上层协议,通过这两个技术的叠加,结合X400感知本地、远端链路负载状态,实时调整转发路径,最终使得在上层协议对乱序无感的情况下,有效带宽大幅提升。
此外,AI大模型训练的网络优化离不开NCCL通信库支持,X400和IB一样,天然的与NCCL无缝衔接,能够为大模型提供高的性能,而其他交换方案需要对NCCL通信库进行修改和优化。
在RDMA跨Spine 4K MTU 1 QP性能测试中, X400 AI Fabric的带宽性能是传统以太网的4.3倍,接近理论峰值。同时,延迟方面,延迟比传统以太网低了2.2倍。这意味着X400 AI Fabric在数据传输和处理速度上远超传统RoCE,更适合构建超大规模的算力系统;
在智算中心的多租户环境下,测试NCCL all to all和all reduce的隔离性能,X400 AI Fabric分别表现出1.1倍和1.5倍的性能提升。这对于需要高效通信和数据同步的AI训练任务来说,显得尤为重要;
在多租户AI应用的性能隔离测试中,使用Nemo LLM 43B模型和FSDP LLAMA 70B模型时,X400 AI Fabric的迭代时间分别比传统RoCE快1.2倍和1.4倍。这意味着我们可以更快地完成训练任务,更快的获得训练成果。
伴随着生成式AI的迅猛发展,模型参数量急速膨胀,单个CPU、GPU甚至多个GPU上无法完成模型训练的挑战。为此,智算中心通常会采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式训练,通过构建数以万计的GPU系统来提升算力,大幅缩短训练周期,这就需要智算网络能够具备支持大规模GPU服务器系统的能力,提供高性能、灵活可拓展的网络服务,以满足未来不断变化的GPU通信负载需求。
X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下,具备超高性能的同时,可以满足数十万卡级别的算力规模,在二层组网下,GPU服务器数量可达1024台,支持8K张GPU卡,可根据算力规模灵活拓展到三层组网,GPU服务器规模可达64000台,最大支持GPU卡的数量可以达到512K张,满足各种规模的组网要求,灵活的弹性组网成为业务创新的强大助力。
在硬件层X400集成了IGE智能防护单元,对关键部件器件进行冗余备份,对关键硬件信号进行全面的监控和故障隔离,确保硬件层面高可靠,由于电子元件都难以避免老化和性能衰减,通过提供高速链路级的性能衰减预警,对Serdes关键参数定期检查,提前预警高速链路性能可能出现的劣化或者故障,发送提醒,避免链路的突然中断影响业务;
通过集成的网络监控模块,以及多种高精度的遥测技术,如buffer、Congestion、日志等,X400实现芯片级、系统级以及链路完整的监控,可以监控到底层链路的状况拥塞,二三层转发状况,整个包转发延时的变化,甚至包括RDMA任务链路的变化,全面掌握AI节点间通信状态;
结合以上监控的数据,通过路径重选机制,X400可以对潜在的故障链路进行自动隔离,在上层应用无感的情况下实现故障自愈。对于小概率出现的链路故障,如果是本地链路上行,可以通过硬件感知进行亚毫秒级的路径切换;如果本地下行链路故障,采用快速重路由技术,自动切换到备份路径上,时间上略慢于上行链路故障;如果发生远端负载断链,需要在更远侧对路由进行调度和均衡,通过在BGP协议优化多项设置,将整个链路恢复时间缩短到毫秒级,整体上无论哪种链路故障均可以实现毫秒级的故障自愈。
尚佳体验 提升整体运营效率
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)