近日,以“创新驱动 智启新程”为主题的2024中国人工智能大会(CCAI)开幕式在北京召开,超节点算力集群创新联合体揭牌仪式隆重举行。会上,北京市科委、中关村管委会、中国移动、浪潮集团、阿里云、清华大学、中科院等单位共同为“超节点算力集群创新联合体”揭牌。
北京市科委、中关村管委会、中国移动、浪潮集团等单位领导共同参加发布仪式
随着人工智能大模型的迅猛发展,其参数规模正向超万亿级别演进,模型的性能和泛化能力不断提升,对高性能智算基础设施的需求更为迫切。在此背景下,传统单台智算服务器仅能容纳8张GPU芯片的算力模式正被“超节点算力集群”这一创新形态所取代,以适应日益增长的算力需求。
“超节点算力集群创新联合体”的GPU卡间互联是基于中国移动原创的OISA(全向智感互联)协议所构建,OISA旨在打造一个高效、智能、灵活且开放的GPU卡间互联体系,该架构致力于支持大模型训练、推理、高性能计算等数据密集型的AI应用。为了实现这一目标,OISA采用了全向连接设计,确保大规模GPU之间对等通信;引入智能感知设计,通过定义流量感知标签,并结合流控和重传机制,优化数据传输效率。在协议层面,OISA采用精悍的报文格式、支持内存和消息的多语义融合、多层次流控重传以及预设集合通信加速等多个关键技术,实现高带宽、低时延和高可靠的GPU通信能力。在当前Gen1.1版本下,OISA支持超节点内任意GPU卡间的点对点读写互联带宽达到896GB/s,每个OISA-Switch芯片支持128个端口、交换容量51.2T。这一技术突破,将极大提升超节点算力集群内的互连效率和数据处理能力。
未来,中国移动将全面支持超节点算力集群创新联合体发展,计划联合产业界优先完成在单层Switch条件下基于OISA互联技术的32/64卡超节点产品落地,并加速128卡超节点产品的输出。这一计划将进一步推进智算产业的发展,提升我国在全球智算领域的创新竞争力。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)