新品|浪潮信息发布X400超级AI以太网交换机 支持Spectrum-X平台

新品|浪潮信息发布X400超级AI以太网交换机 支持Spectrum-X平台
2024年07月23日 17:34 网易新闻

7月23日消息,浪潮信息发布面向生成式AI的「X400超级AI以太网」交换机,国内首款支持NVIDIA Spectrum-X平台技术,并基于X400和BlueField-3 SuperNICs打造端网协同的X400超级AI以太网(X400 AI Fabric)方案,大幅提升万卡GPU训练性能至1.6倍。

据悉,随着大模型时代的竞争愈发激烈,大模型的迭代能力已经成为市场竞争力的核心。但随着算力规模的不断上涨,单颗芯片的性能不再是决定性的关键,AI系统的效率成为用户关注的焦点。目前在AI大模型用户的训练过程中,网络通信占训练时长可达20~40%。例如之前 Meta的统计数据显示,在 AI 训练中网络通信时长占比平均占据了35% 的时间(最高时57%),这等于花费数百万或数十亿美元购买的 GPU 有35% 的时间是空闲的。为提高GPU资源利用率,网络通信效率亟待提升。但传统RoCE网络ECMP的HASH不均问题,导致整体链路负载利用率低。而专用网络方案虽然可以满足性能需求,却无法兼顾已经构建完善的以太网生态系统。

日前,浪潮信息「X400超级AI以太网」基于Spectrum-X平台,通过端网协同技术,为AI大模型训练网络建设开辟了一条新道路,从性能、可扩展性、稳定性和用户体验四个方面应对客户面临的挑战,将客户在纠结采用以太还是专用网络的状态中拯救出来。与此同时,超级AI以太网交换机X400采用开放架构,遵循S3IP-UNP规范设计,实现软硬件分层解耦,通过构建网络开放生态,加速客户业务创新。16K张GPU卡计算规模下的GPT3模型训练实测中,超级AI以太网实现性能突破,达到传统RoCE的1.6倍。

在网络性能方面,X 400超级AI以太网方案采用了X400加智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技术,实现交换机和网卡更加紧密的配合,为AI大模型提供零丢包、无阻塞的全链路交换网络,机间互联性能400G,有效带宽从传统的60%提升到95%,性能达到传统RoCE的1.6倍。

在算力资源灵活拓展方面,X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下,具备超高性能的同时,可以满足数十万卡级别的算力规模,在二层组网下,GPU服务器数量可达1024台,支持8K张GPU卡,可根据算力规模灵活拓展到三层组网,GPU服务器规模可达64000台,最大支持GPU卡的数量可以达到512K张,满足各种规模的组网要求,灵活的弹性组网成为业务创新的强大助力。

在运营效率方面,浪潮信息X400超级AI以太网方案延续了以太方案的兼容性和性价比,确保敏捷运维和超高性能的同时,大幅降低网络建设TCO,并为客户打造一键式自动化的部署模式,实现模型特征自适应的网络配置,将部署周期从数周缩短至数天,加速业务上线,结合全面可视的智能运维平台,直观发现潜在风险与故障,保证业务的连续性。(定西)

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 07-26 龙图光罩 688721 --
  • 07-23 博实结 301608 44.5
  • 07-22 力聚热能 603391 40
  • 07-15 绿联科技 301606 21.21
  • 07-11 科力装备 301552 30
  • 新浪首页 语音播报 相关新闻 返回顶部