7月23日消息,浪潮信息发布面向生成式AI的「X400超级AI以太网」交换机,国内首款支持NVIDIA Spectrum-X平台技术,并基于X400和BlueField-3 SuperNICs打造端网协同的X400超级AI以太网(X400 AI Fabric)方案,大幅提升万卡GPU训练性能至1.6倍。
据悉,随着大模型时代的竞争愈发激烈,大模型的迭代能力已经成为市场竞争力的核心。但随着算力规模的不断上涨,单颗芯片的性能不再是决定性的关键,AI系统的效率成为用户关注的焦点。目前在AI大模型用户的训练过程中,网络通信占训练时长可达20~40%。例如之前 Meta的统计数据显示,在 AI 训练中网络通信时长占比平均占据了35% 的时间(最高时57%),这等于花费数百万或数十亿美元购买的 GPU 有35% 的时间是空闲的。为提高GPU资源利用率,网络通信效率亟待提升。但传统RoCE网络ECMP的HASH不均问题,导致整体链路负载利用率低。而专用网络方案虽然可以满足性能需求,却无法兼顾已经构建完善的以太网生态系统。
日前,浪潮信息「X400超级AI以太网」基于Spectrum-X平台,通过端网协同技术,为AI大模型训练网络建设开辟了一条新道路,从性能、可扩展性、稳定性和用户体验四个方面应对客户面临的挑战,将客户在纠结采用以太还是专用网络的状态中拯救出来。与此同时,超级AI以太网交换机X400采用开放架构,遵循S3IP-UNP规范设计,实现软硬件分层解耦,通过构建网络开放生态,加速客户业务创新。16K张GPU卡计算规模下的GPT3模型训练实测中,超级AI以太网实现性能突破,达到传统RoCE的1.6倍。
在网络性能方面,X 400超级AI以太网方案采用了X400加智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技术,实现交换机和网卡更加紧密的配合,为AI大模型提供零丢包、无阻塞的全链路交换网络,机间互联性能400G,有效带宽从传统的60%提升到95%,性能达到传统RoCE的1.6倍。
![](http://n.sinaimg.cn/spider20240723/430/w660h570/20240723/8777-77e972ae8819830e4ef4f0e6d59afbae.jpg)
![](http://n.sinaimg.cn/spider20240723/266/w660h406/20240723/d066-0b0579b53dfe2f714cc6ec26f8dde640.jpg)
![](http://n.sinaimg.cn/spider20240723/378/w660h518/20240723/0fe9-76f4b7dd30bc9baa1192af7cf82ef4f0.jpg)
在算力资源灵活拓展方面,X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下,具备超高性能的同时,可以满足数十万卡级别的算力规模,在二层组网下,GPU服务器数量可达1024台,支持8K张GPU卡,可根据算力规模灵活拓展到三层组网,GPU服务器规模可达64000台,最大支持GPU卡的数量可以达到512K张,满足各种规模的组网要求,灵活的弹性组网成为业务创新的强大助力。
![](http://n.sinaimg.cn/spider20240723/309/w523h586/20240723/22f5-5a828ba919f6d63d7a83d38290856292.jpg)
在运营效率方面,浪潮信息X400超级AI以太网方案延续了以太方案的兼容性和性价比,确保敏捷运维和超高性能的同时,大幅降低网络建设TCO,并为客户打造一键式自动化的部署模式,实现模型特征自适应的网络配置,将部署周期从数周缩短至数天,加速业务上线,结合全面可视的智能运维平台,直观发现潜在风险与故障,保证业务的连续性。(定西)
![](http://n.sinaimg.cn/finance/cece9e13/20240627/655959900_20240627.png)
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)