深入探秘全球最大AI超级集群xAI Colossus

深入探秘全球最大AI超级集群xAI Colossus
2024年11月02日 09:51 华尔街见闻

这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群,不仅以其规模令业界瞩目,其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。

Video Player is loading.

Play Video

Play

Loaded: 0%

Current Time 0:00

/

Duration 0:00

1x

Playback Rate

  • 2x
  • 1.5x
  • 1.25x
  • 1x, selected
  • 0.75x

Mute

Fullscreen

This is a modal window.

No compatible source was found for this media.

Beginning of dialog window. Escape will cancel and close the window.

Text

Color

White

Black

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Opaque

Semi-Transparent

Background

Color

Black

White

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Opaque

Semi-Transparent

Transparent

Window

Color

Black

White

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Transparent

Semi-Transparent

Opaque

Font Size

50%

75%

100%

125%

150%

175%

200%

300%

400%

Text Edge Style

None

Raised

Depressed

Uniform

Dropshadow

Font Family

Proportional Sans-Serif

Monospace Sans-Serif

Proportional Serif

Monospace Serif

Casual

Script

Small Caps

Reset restore all settings to the default valuesDone

Close Modal Dialog

End of dialog window.

xAI Colossus 数据中心概况

一、GPU计算系统

GPU:Colossus目前部署了10万个NVIDIA Hopper GPU,并计划扩展至20万个,其中包括5万个H100和5万个H200。所有GPU都集成在NVIDIA HGX H100平台上,每个平台包含8个GPU。

机架配置:每个机架可容纳64个GPU,8个机架组成一个阵列,共计512个GPU。Colossus共有超过1500个机架,接近200个阵列。

服务器:超微4U通用GPU液冷系统。服务器内部结构包括:

8-GPU NVIDIA HGX托盘:采用超微定制液冷模块,每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机。

CPU托盘:配备两个x86 CPU液冷块和一个用于冷却四个Broadcom PCIe交换机的定制液冷块。

可维护性:超微系统采用可维护托盘设计,无需将整机从机架上移除即可进行维护。每个服务器配备了四个热插拔电源。

网络:每个服务器配备9个400GbE网络连接,总带宽达到3.6Tbps。其中8个NVIDIA BlueField-3 SuperNIC用于AI网络,另外1个Mellanox ConnectX-7网卡提供CPU端的其他网络功能。

二、CPU计算系统

服务器:超微1U服务器,每机架42台。

CPU:采用高速x86 CPU,具体型号未知。

网络:每个服务器配备一个400GbE网卡。

散热:CPU服务器采用风冷设计,通过机架后部的热交换器将热量传递到液冷回路中。

三、存储系统

规模:EB级存储。

介质:NVMe SSD。

服务器:超微1U服务器。

特点:为满足AI训练对存储容量的巨大需求,Colossus的存储主要通过网络交付,供所有GPU和CPU服务器访问。

四、网络系统

GPU网络:

技术:采用400GbE以太网,使用NVIDIA Spectrum-X网络解决方案,支持RDMA技术。

交换机:NVIDIA Spectrum-X SN5600以太网交换机,每个交换机拥有64个端口,支持高达800Gb/s的速度,并可分割成128个400GbE链路。

网卡:NVIDIA BlueField-3 SuperNIC,为每个GPU提供专用网络连接。

存储网络:采用400GbE以太网,使用64端口800GbE以太网交换机。

特点:Colossus的网络系统采用以太网而非InfiniBand等技术,这主要是因为以太网具有更好的可扩展性,能够满足Colossus庞大的规模需求。GPU网络和CPU网络分离,以确保高性能计算集群的最佳性能。

五、冷却系统

GPU服务器:

散热方式:液冷散热。

CDU:每个机架底部配备超微CDU和冗余泵系统。

冷却液循环:冷却液通过机架分配管道进入每个服务器的分配器,再流经服务器内部的8-GPU NVIDIA HGX托盘和CPU托盘的液冷块,最终回到CDU。

其他:机架中仍保留了风扇系统,用于冷却内存、电源单元、主板管理控制器、网卡等低功耗组件。

CPU服务器、网络设备和存储系统:风冷散热,通过机架后部的热交换器将热量传递到液冷回路中。热交换器类似于汽车散热器,通过风扇将热空气抽过散热片,并将热量传递给循环水。

机房:采用冷水循环系统,CDU将热量传递到循环水中,热水在设施外部冷却后循环利用。庞大的供水管道将冷水引入设施,并循环流经每个机架中的CDU,吸收热量后,热水被引导至设施外部的冷却设备。

六、电力系统

供电:采用三相电源,每个机架配备多个电源条。

储能:使用特斯拉Megapack电池组作为超级计算机和电网之间的能量缓冲器,每个Megapack可存储高达3.9MWh的电能。Megapack的引入是为了解决GPU服务器功耗波动对电网造成的压力。

七、其他

监控系统:每个机架的CDU都有独立的监控系统,可以监控流量、温度等参数。此外,机架后部配备LED指示灯,用于显示设备状态,蓝色代表正常运行,红色表示故障。

xAI Colossus数据中心计算大厅xAI Colossus数据中心计算大厅

通过对xAI Colossus超级计算机的深度探访,我们近距离感受到了xAI公司在田纳西州孟菲斯部署的大规模AI算力所带来的震撼。

这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群,不仅以其规模令业界瞩目,其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。现在,让我们一起走进这座设施内部。

xAI的液冷机架技术

Colossus计算集群的核心构建单元是超微(Supermicro)的液冷机架系统。每个机架集成了八台4U服务器,单台服务器搭载八片NVIDIA H100 GPU,使单机架总GPU容量达到64片。一个完整的GPU计算机架由八台GPU服务器、一个超微冷却分配单元(Cooling Distribution Unit, CDU)及配套设备组成。

xAI Colossus数据中心超微液冷节点低角度xAI Colossus数据中心超微液冷节点低角度

这些机架以八台为一组部署,每组可支持512片GPU,并配备网络互联设施,以便在更大规模系统中形成计算子集群。

xAI Colossus数据中心超微4U通用GPU液冷服务器xAI Colossus数据中心超微4U通用GPU液冷服务器

xAI采用的是超微的4U通用GPU系统,这是当前市面上最先进的AI计算服务器,其优势主要体现在两个方面:领先的液冷技术和卓越的可维护性。

xAI Colossus数据中心超微4U通用GPU液冷服务器xAI Colossus数据中心超微4U通用GPU液冷服务器

这些系统的原型首次亮相于2023年超级计算大会(SC23)。由于我们参观时系统正在执行训练任务,未能在孟菲斯现场开箱展示。值得一提的是,系统采用了可服务化托盘设计,无需将整机从机架移除即可进行维护。1U机架分配管道负责为每个系统输送冷却液并回收热液。快速断开接头使得液冷系统的拆装变得简便,去年我们就演示过单手操作这些接头的便利性。断开接头后,托盘可轻松抽出进行维护。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

这些服务器原型的图片资料,可以展示系统内部结构。除了采用超微定制液冷模块的8-GPU NVIDIA HGX托盘外,CPU托盘的设计充分展现了行业领先的下一代工程理念。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

SC23原型中的两个x86 CPU液冷块相当常见。独特之处在于右侧。超微的主板集成了四个Broadcom PCIe交换机,这些交换机几乎用于当今所有的HGX AI服务器,而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个PCIe交换机。行业中的其他AI服务器是先构建,然后将液冷添加到风冷设计中。超微的设计从一开始就是为液冷设计的,并且全部来自一个供应商。

超微SYS 821GE TNHR,NVIDIA H100和NVSwitch液冷模块超微SYS 821GE TNHR,NVIDIA H100和NVSwitch液冷模块

这可以类比汽车领域:有些电动车是在传统燃油车底盘上改装而成,而有些则是原生设计的纯电动车。超微的系统属于后者,而其他HGX H100系统则类似前者。我们实际测试过大多数公开的HGX H100/H200平台和一些超大规模设计,超微系统的优势相较其他系统(包括超微自己的其他液冷或风冷设计)显著可见。

机架后部设有400GbE光纤,用于GPU和CPU组件的互联,以及用于管理网络的铜缆。网络接口卡(Network Interface Card, NIC)采用独立托盘设计,可在不拆卸机箱的情况下快速更换,安装位置在机箱后部。每台服务器配备四个热插拔电源,由三相配电单元(PDU)供电。

xAI Colossus数据中心超微4U通用GPU液冷服务器后视图xAI Colossus数据中心超微4U通用GPU液冷服务器后视图

机架底部安装有冷却分配单元(CDU),这些CDU实际上是大型热交换器。每个机架都有独立的流体循环系统,为所有GPU服务器提供冷却。这里使用"流体"而非"水",是因为循环系统需要根据液冷块、管道、分配器等硬件特性选用特定的冷却液。

xAI Colossus数据中心超微CDU位于机架底部xAI Colossus数据中心超微CDU位于机架底部

每个CDU配备冗余泵和电源,支持单泵故障时在不停机的情况下进行更换。

拆卸超微CDU泵拆卸超微CDU泵

xAI的机架功能丰富,在2023年的相关视频中,我们详细展示了超微CDU的结构,包括机房水路和机架分配管道的进出水接口,以及每个CDU的热插拔冗余电源。

超微CDU 2023后视图超微CDU 2023后视图

Colossus机架中的CDU被各种管线和线缆遮挡着。

xAI Colossus数据中心超微CDU后视图xAI Colossus数据中心超微CDU后视图

机架两侧配备三相PDU和机架分配管道。前置的1U分配管道为4U通用GPU系统供液,该分配管道则由连接CDU的机架分配管道供给。所有组件采用红蓝配色标识,红色表示热流体回路,蓝色表示冷流体供给。

xAI Colossus数据中心超微机架分配器软管xAI Colossus数据中心超微机架分配器软管

机架中仍保留了风扇系统,用于冷却内存(DIMM)、电源单元、主板管理控制器(BMC)、网卡等低功耗组件。在Colossus中,每个机架需要保持冷却平衡,避免使用大功率空气处理设备。服务器风扇从前部吸入冷空气,从后部排出,随后经过后门热交换器处理。

xAI 数据中心参观后门热交换器xAI 数据中心参观后门热交换器

后门热交换器的原理类似汽车散热器,将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量转移至机房水路系统。空气通过设备后部的风扇抽入。这些设备具有LED指示功能,正常运行时显示蓝光,需要维护时会转为其他颜色(如红色)。

在施工现场参观时,虽然我没有开启几台机架,但看到这些热交换器在机架上线时呈现出不同的颜色变化,还是觉得非常有意思。

xAI 数据中心参观后门热交换器xAI 数据中心参观后门热交换器

这些后门热交换器在数据中心中扮演着双重角色:不仅处理超微液冷GPU服务器的余热,还可以处理存储系统、CPU计算集群和网络设备产生的热量。

xAI的存储系统

在典型的AI计算集群中,大型存储阵列是标配。在此项目中,虽然运行着来自不同厂商的存储软件,但绝大部分存储服务器硬件均由超微提供。这很好理解,因为超微是多家存储设备供应商的OEM。

xAI Colossus数据中心超微1U NVMe存储节点xAI Colossus数据中心超微1U NVMe存储节点

实地考察时一个引人注目的细节是,部分存储服务器的外观与CPU计算服务器极为相似。

xAI Colossus数据中心超微1U NVMe存储节点xAI Colossus数据中心超微1U NVMe存储节点

从我们的图片和视频记录可以看到大量2.5英寸NVMe硬盘托架。大规模AI计算集群正在经历从机械硬盘存储向闪存存储(SSD)的转型。闪存存储不仅能显著降低能耗,还能提供更高的性能和存储密度。虽然每PB闪存的初始投入较高,但从TCO角度来看,在此规模的集群中,闪存通常是更具经济效益的选择。

xAI的CPU计算系统

在大规模计算集群中,传统CPU计算节点依然占据重要位置。相比GPU,CPU在数据处理和操作任务方面仍具独特优势。此外,将GPU资源专注于AI训练或推理(Training/Inference)工作负载,而由CPU承担其他计算任务,是一种更为高效的资源分配策略。

xAI Colossus数据中心CPU计算机架xAI Colossus数据中心CPU计算机架

在项目现场,我们看到了整排的1U服务器。每台服务器的设计都在计算密度和散热需求之间达到了精妙的平衡。以机箱正面为例,约三分之一的面板用于冷空气进气,其余部分则布置了带有橙色标识的NVMe硬盘托架。

xAI Colossus数据中心CPU计算机架xAI Colossus数据中心CPU计算机架

这些1U计算服务器采用风冷设计,通过后门热交换器(Rear Door Heat Exchanger)将热量转移至机房水冷系统(Facility Water Loop)。这种设计使得xAI能够在同一数据中心基础设施中,同时兼容液冷和风冷设备的散热需求。

xAI的网络

网络是此项目最为引人关注的部分之一。虽然基础技术仍是以太网(Ethernet),与普通电脑使用的网络协议相同,但这里采用的是400GbE网络,其传输速率是常见1GbE网络的400倍。每个系统配备九个这样的连接,使单台GPU计算服务器的总带宽达到惊人的3.6Tbps。

xAI Colossus数据中心网卡(NIC)xAI Colossus数据中心网卡(NIC)

GPU的数据传输主要依赖于RDMA网络。每个GPU都配备专用网卡,项目采用NVIDIA BlueField-3 SuperNIC和Spectrum-X网络解决方案。NVIDIA的网络技术栈具有独特优势,能确保数据在集群内高效精准地传输。

xAI Colossus数据中心交换机光纤xAI Colossus数据中心交换机光纤

值得注意的是,与多数采用InfiniBand等技术的超级计算机不同,此项目选择了以太网。这一选择极具战略意义——以太网作为互联网的基础协议,具有卓越的可扩展性。当今规模庞大的AI集群已经超出了许多复杂专有技术的覆盖范围,xAI团队在这方面做出了富有远见的尝试。

除GPU的RDMA网络外,CPU系统也配备了独立的400GbE网络,使用完全不同的交换架构。这种GPU网络与普通集群网络分离的设计,是高性能计算(HPC)集群中的最佳实践。

xAI Colossus数据中心单模和多模光纤xAI Colossus数据中心单模和多模光纤

为了直观理解400GbE的性能,单条链路的带宽就超过了2021年初发布的顶级Intel Xeon服务器处理器的全部PCIe通道总和,而每台服务器配备了九条这样的连接。

xAI Colossus数据中心交换机堆叠xAI Colossus数据中心交换机堆叠

如此密集的网络互联需要大量光纤布线。每条光纤都经过精确切割、端接处理和标识管理。

xAI Colossus数据中心光纤布线xAI Colossus数据中心光纤布线

我8月份遇到了一些从事这项工作的人员。他们的结构化布线总是做得非常整洁。

xAI Colossus数据中心光纤布线xAI Colossus数据中心光纤布线

除高速集群网络外,设施还部署了用于管理接口和环境设备的低速网络,这是大规模集群的必备组成部分。

在实地考察中,液冷网络交换机的需求显而易见。我们最近评测的64端口800GbE交换机,其性能与多数AI集群使用的51.2T级交换机相当。行业面临的挑战是如何同时解决交换芯片和光学组件的散热问题,后者在现代交换机中的功耗往往更高。这样规模的部署或许能推动协同封装光学(Co-packaged Optics)技术的发展,使交换机冷却能与液冷计算系统完美集成。我们此前见过液冷协同封装光学交换机的原型展示,期待本次部署能促进这些技术从实验走向量产。

xAI Colossus的机房设施

由于我们采用液冷的AI服务器机架,电力和设施用水对于安装至关重要。这里展示了庞大的供水管道,分为冷水和热水两组。冷水被引入设施,并循环流经每个机架中的冷却液分配单元(CDU)。热量从GPU和后门热交换器回路传递至CDU的设施用水回路。热水随后被引导至设施外部的冷却设备。值得注意的是,这些冷却设备并非用于制冰,而是旨在将水温降低至足以再次循环利用的程度。

xAI Colossus数据中心设施用水管道xAI Colossus数据中心设施用水管道

电力系统同样引人注目。在我们孟菲斯之行中,目睹了团队将巨大的电缆搬入到位。

xAI Colossus数据中心的电气基础设施xAI Colossus数据中心的电气基础设施

在机房设施外,我们看到了装载特斯拉Megapack的集装箱。这是团队在建设这个庞大集群过程中的一项重要发现。AI服务器的电力消耗并非恒定,而是会随工作负载的波动而变化。由于现场部署了大量GPU,电力峰谷现象十分明显。团队发现,毫秒级的电力峰值和低谷对系统造成了显著压力,因此引入特斯拉Megapack以缓冲电力峰值,从而提高系统的稳定性。

准备在xAI Colossus安装的特斯拉Megapack准备在xAI Colossus安装的特斯拉Megapack

当然,这仅仅是设施建设的开始。尽管在我们访问时,四个25,000 GPU数据中心的初始集群已投入使用,能够支持约100,000个GPU,但集群的扩展工作正在快速推进。

在孟菲斯xAI Colossus数据中心的外部在孟菲斯xAI Colossus数据中心的外部

这无疑是一个令人振奋的开端。

总结

在这个过程中,我深刻体会到,xAI团队在协调众多供应商方面付出了巨大努力。如此庞大的AI集群的建成,离不开各领域专家的通力合作,他们以令人难以置信的速度共同创造了一个奇迹。如果仅从我拍摄视频的那天所见,很难想象背后凝聚了如此多的心血。

AI社区普遍认为,随着计算能力的不断提升,大语言模型(LLMs)的潜力将远不止于聊天机器人。漫步在Colossus中,我深切感受到,只有当人们看到了数据驱动的巨大价值,才会投入如此巨大的资源进行建设。Grok和xAI团队的未来无疑将超越简单的聊天机器人。众多才智之士正倾注大量心血和财力,力争尽快实现这一愿景。

来源:Andy730,原文标题:《深入探秘全球最大AI超级集群xAI Colossus》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

海量资讯、精准解读,尽在新浪财经APP
液冷 机架 gpu 超微 NVIDIA

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 11-08 壹连科技 301631 --
  • 11-08 金天钛业 688750 --
  • 10-29 聚星科技 920111 6.25
  • 10-25 港迪技术 301633 37.94
  • 10-25 健尔康 603205 14.65
  • 新浪首页 语音播报 相关新闻 返回顶部