X400超级AI以太网，基于Spectrum-X大幅提升万卡GPU训练性能_新浪科技

伴随着智算时代的到来，生成式AI的发展对算力的需求爆发增长。随着模型参数量越来越大，大规模AI计算进入万卡时代，面临计算能力不足、训练成本高等问题。原因之一就是传统网络效率低下，导致多节点间的通信效率低。在训练基础模型中，网络通信往往占到20%到40%的时间，在进行梯度和参数同步时，浪费了宝贵的算力资源。

X400超级AI以太网专为AI大模型打造

不久前，浪潮信息「X400超级AI以太网」基于Spectrum-X平台，通过领先的端网协同技术，为AI大模型训练网络建设开辟了一条新道路，从性能、可扩展性、稳定性和用户体验四个方面应对客户面临的挑战，实现AI业务的最佳效率，将客户在纠结采用以太还是专用网络的状态中拯救出来。与此同时，超级AI以太网交换机X400采用开放架构，遵循S3IP-UNP规范设计，实现软硬件分层解耦，通过构建网络开放生态，加速客户业务创新。16K张GPU卡计算规模下的GPT3模型训练实测中，超级AI以太网实现性能突破，达到传统RoCE的1.6倍。

网络性能是核心，也是满足AI大模型训练的基础。X400超级AI以太网方案采用了X400加智能网卡的协同调度，通过自适应路由、报文保序、可编程CC等技术，实现交换机和网卡更加紧密的配合，为AI大模型提供零丢包、无阻塞的全链路交换网络，机间互联性能400G，有效带宽从传统的60%提升到95%，性能达到传统RoCE的1.6倍。

　　网络侧：传统的ROCE方案在进行转发路径选择时采用静态hash计算方法，没有考虑路径负载状态，导致多条流可能选择相同的路径，从而导致了数据包的堆积，降低了网络吞吐率。X400在交换机侧采用包喷洒技术，提供基于数据包的细粒度路由调度，在网卡侧提供保序服务，实现构建整体端到端的无阻塞网络，相比于传统的RoCE方案仅在交换机上进行路径选择和拥塞控制的方式，将彻底改善网络流量的负载均衡问题，全面优化流量的路径分布。

　　端侧：包喷洒会带来一个新的问题，就是一个流里的若干个数据包，可能会选择走不同的路径，导致数据包到目的端可能会乱序，如何将乱序到达的数据包重新编排、纠正，则依赖于智能化网卡的保序服务，通过DDP（直接数据放置）技术实现乱序重排，再转发给上层协议，通过这两个技术的叠加，结合X400感知本地、远端链路负载状态，实时调整转发路径，最终使得在上层协议对乱序无感的情况下，有效带宽大幅提升。

此外，AI大模型训练的网络优化离不开NCCL通信库支持，X400和IB一样，天然的与NCCL无缝衔接，能够为大模型提供高的性能，而其他交换方案需要对NCCL通信库进行修改和优化。

　　在RDMA跨Spine 4K MTU 1 QP性能测试中， X400 AI Fabric的带宽性能是传统以太网的4.3倍，接近理论峰值。同时，延迟方面，延迟比传统以太网低了2.2倍。这意味着X400 AI Fabric在数据传输和处理速度上远超传统RoCE，更适合构建超大规模的算力系统；

　　在智算中心的多租户环境下，测试NCCL all to all和all reduce的隔离性能，X400 AI Fabric分别表现出1.1倍和1.5倍的性能提升。这对于需要高效通信和数据同步的AI训练任务来说，显得尤为重要；

　　在多租户AI应用的性能隔离测试中，使用Nemo LLM 43B模型和FSDP LLAMA 70B模型时，X400 AI Fabric的迭代时间分别比传统RoCE快1.2倍和1.4倍。这意味着我们可以更快地完成训练任务，更快的获得训练成果。

伴随着生成式AI的迅猛发展，模型参数量急速膨胀，单个CPU、GPU甚至多个GPU上无法完成模型训练的挑战。为此，智算中心通常会采用分布式训练技术，对模型和数据进行切分，采用多机多卡的方式训练，通过构建数以万计的GPU系统来提升算力，大幅缩短训练周期，这就需要智算网络能够具备支持大规模GPU服务器系统的能力，提供高性能、灵活可拓展的网络服务，以满足未来不断变化的GPU通信负载需求。

X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下，具备超高性能的同时，可以满足数十万卡级别的算力规模，在二层组网下，GPU服务器数量可达1024台，支持8K张GPU卡，可根据算力规模灵活拓展到三层组网，GPU服务器规模可达64000台，最大支持GPU卡的数量可以达到512K张，满足各种规模的组网要求，灵活的弹性组网成为业务创新的强大助力。

　　在硬件层X400集成了IGE智能防护单元，对关键部件器件进行冗余备份，对关键硬件信号进行全面的监控和故障隔离，确保硬件层面高可靠，由于电子元件都难以避免老化和性能衰减，通过提供高速链路级的性能衰减预警，对Serdes关键参数定期检查，提前预警高速链路性能可能出现的劣化或者故障，发送提醒，避免链路的突然中断影响业务；

　　通过集成的网络监控模块，以及多种高精度的遥测技术，如buffer、Congestion、日志等，X400实现芯片级、系统级以及链路完整的监控，可以监控到底层链路的状况拥塞，二三层转发状况，整个包转发延时的变化，甚至包括RDMA任务链路的变化，全面掌握AI节点间通信状态；

　　结合以上监控的数据，通过路径重选机制，X400可以对潜在的故障链路进行自动隔离，在上层应用无感的情况下实现故障自愈。对于小概率出现的链路故障，如果是本地链路上行，可以通过硬件感知进行亚毫秒级的路径切换；如果本地下行链路故障，采用快速重路由技术，自动切换到备份路径上，时间上略慢于上行链路故障；如果发生远端负载断链，需要在更远侧对路由进行调度和均衡，通过在BGP协议优化多项设置，将整个链路恢复时间缩短到毫秒级，整体上无论哪种链路故障均可以实现毫秒级的故障自愈。

尚佳体验提升整体运营效率