(转自:君实财经)
探索昇腾910C十万卡集群
1、昇腾910系列技术发展历程
·第一代昇腾910架构:2019年推出的第一代昇腾910芯片采用1+1+4架构,包含一个GPU计算带(橘色部分)、一个IO带(蓝色部分)和四个HBM2模块。为保证结构平衡,设计了两个深灰色的空硅片。该代芯片计算带面积为456平方毫米。
·2023年昇腾920B架构:2023年推出的昇腾920B有4款产品,对应两种架构形式。其一为1+4架构,中间为集成计算带与通信模块的完整计算带,包含4个HBM及两侧浅灰色HBM,深灰色空硅片用于保证结构应力平衡;其二为类似2019年的1+1+4架构,但模块有所优化,计算带面积从456平方毫米缩小至390平方毫米,HBM从长方形的HBM2升级为更趋近正方形的HBM2E。
·昇腾920C架构升级:2025年正式面向市场的昇腾920C由两颗昇腾920B垂直拼接形成,采用2+8架构(2个GPU带+8个HBM),两GPU带间通过绿色载板走线互联(未使用硅桥)。通信性能方面,两计算带间单向传输速率为270GB/秒;每个计算带与相邻HBM间带宽为1600GB/秒。通信支持UB和RDMA两种协议,UB协议双向通信速率为392GB/秒(单向196GB/秒),RDMA协议通信速率约为25GB/秒(200Gbps转换后)。8个HBM合计容量为128GB,整体性能较上一代昇腾920B实现翻倍。
2、cloud Matrix 384超级节点分析
·超级节点组成逻辑:华为推出cloud Matrix 384超级节点与公司战略发展相关。任正非曾提出,国内芯片问题需用系统性思维解决,在无法获取最先进制程芯片时,华为选择以集群和叠加力量、以量换质的策略,通过计算、存储、传输三维一体的形式,以多卡集群弥补单卡支撑的不足。最新一代生成AI云服务基于cloud Matrix 384超级节点构建,由384个GPU与192个CPU组成高速网络,形成超级AI服务器。其单卡推理吞吐量可达2300TOKEN/秒,整体集群性能可与英伟达NVI72对标。在技术参数上,机柜内及机柜间在读和写时的带宽、时延等速率表现优异。
3、多卡组网技术与架构
·UB Mesh协议基础:华为UB Mesh(UNIFIED bus统一总线)是新的通信协议,可与英伟达Nvlink等效,支持GPU、CPU、交换机芯片(LIS/HRS)通过统一接口互联。对比英伟达异构互联系统(CPU与GPU通过PCB板上的Pcie协议互联,GPU间通过Nvlink连接,网卡间通过IB网络或以太网互联,涉及三种通信协议),华为UB网络采用全铜连接(非全光),实物图显示有密集铜线。具体接口容量方面,GPU支持72路UB接口,CPU支持32路,交换机芯片分别支持72路和512路。此外,华为的CPU与NPU分属不同PCB板,支持灵活配置。
·嵌套式组网层级:华为采用嵌套式拓扑结构组网,从一维(8卡两两互联)升维至二维(8板组成机柜),最终可扩展为n维(含x、y、z、阿尔法、贝塔、伽马六维)。各层级互联方式如下:board级(板子内部),8张卡两两互联形成星型网络,共需28组铜线;rack级(机柜内部),8个板子组成,同一编号的GPU两两互联,64张卡共需448组铜线;Pod级(机柜间),16个机柜组成,横向和纵向的机柜两两互联(对角线不连接),支持1024张卡铜线互联;super Pod级(跨Pod),通过高基数交换机(HRS)连接8个Pod,支持接近9000张卡,此时采用光模块连接。设计逻辑上,短距(板内、机柜内)用铜线降低损耗,长距(跨机柜、跨Pod)用光纤减少高速率、高带宽光交换机使用量。
·10万卡组网实现:10万卡集群通过两种方式扩展:一是通过RDMA协议(scale out互联)连接多个384超级节点,最大支持16.5万张GPU互联;二是通过VPC(虚拟私有云)连接数据中心,使用华为晴天网卡,单节点提供400Gbps单线带宽,运行于标准以太网和IP协议,支持模型部署、监控调度、持久存储访问(对象存储、弹性服务、可扩展文件系统)及外部CPU工作负载调用。6月20日华为开发者大会信息显示,基于cloud Matrix 384超级节点的新一代生成AI云服务已上线,通过432级节点实现16万卡超算集群,可满足10万亿参数大模型训练需求。
4、昇腾920C应用与落地情况
·企业与科研应用案例:新浪、面壁智能、微博、360、硅基流动、科大讯飞及中科院等企业与科研机构,已使用cloud Matrix 384,支持搜索引擎、大模型训练等场景,覆盖视频、科研、音频等多类型大模型训练需求。
·数据中心与集群建设:华为云在芜湖、贵安、内蒙古等地部署了基于384超节点的数据中心,华为云CEO提及后续可实现16.5万张卡的超大集群。新疆江川科技公告了万卡级计算中心项目,采购4500台生成920C 2(每台支持两卡),共9000张卡。并行科技算海计划一期已落地运营,最大支持6万卡单体集群,二期可容纳10万卡集群。2025年6月甘肃提出建设国产10万卡算力集群规划,预计2027年建成使用。截至2025年6月,生成920C出货量至少五六万颗,其中华为云内部使用至少2万颗,新疆项目使用1万颗,深圳鹏城实验室搭建了2万卡集群。华为云后续建设的数据中心将陆续替换为昇腾920C,对其2025年下半年出货量持乐观预期。
5、昇腾920D展望
·架构与发布时间:市场对昇腾920D架构有相关推测。此前华为公开四个带合封专利,核心是通过连接实现各带无信号串扰,非针对特定芯片。基于此,推测昇腾920D或由两颗920B拼接升级成四颗带结构。时间上,预计2025年底面向市场。HBM搭配数量可灵活选,如四颗、八颗、六颗,取决于场景需求。因华为未来侧重B端,B端垂类大模型参数、精度要求低于通用大模型,对产品性能要求不高,后续或推多版本芯片满足终端应用需求。
昇腾 920 相关个股较多,涉及硬件制造、测试服务、系统集成等多个领域,以下是部分个股介绍: 拓维信息(002261):昇腾核心硬件合作伙伴,推出了兆瀚系列等多款基于昇腾芯片的 AI 服务器,参与了多个国家级智算中心建设,并联合华为发布城市大模型解决方案。2025 年昇腾服务器出货量在华为合作伙伴中排名前列,深度绑定昇腾算力生态。
$拓维信息(SZ002261)$
广电运通(002152):公司入股广电五舟后,推动其成为华为鲲鹏、昇腾的战略合作伙伴之一,为客户提供国产高性能计算产品及各种算力解决方案,产品及解决方案已从党政领域拓展至金融、交通等多个行业及领域,在 “鲲鹏 + 昇腾” 生态中处于头部领先地位。
$广电运通(SZ002152)$
软通动力(301236):软通计算(同方计算机)是华为鲲鹏 & 昇腾整机合作伙伴,成功推出基于昇腾算力卡的 AI 工作站产品等,实现了在通用算力和异构算力上的全面布局。伟测科技:作为华为昇腾芯片第一大测试服务商,伟测科技直接受益于昇腾生态爆发。公司通过盛合晶微深度参与 3D 先进封装测试,能完美承接昇腾 920 等高端芯片的测试需求。
$软通动力(SZ301236)$
云从科技(688327):首批昇腾一体机供应商,云端一体机受益昇腾云与低成本训练,多模态能力突出,适配 Deepseek 等各类第三方模型。
高新发展(000628):旗下华鲲振宇是昇腾服务器相关企业,属于昇腾服务器小伙伴阵营,在国产算力领域有一定影响力。
荣科科技(300290):全资子公司荣科智维云是超聚变服务器的金牌经销商,而超聚变与昇腾产业链关系紧密,公司因此也与昇腾 920 产生关联

VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
