据称,有关 Nvidia 的 GB200 NVL72 服务器机架过热的报道被夸大了。Business Insider 报道称,Blackwell 的冷却设计错误已经得到解决。据称,Semianalysis 的首席分析师 Dylan Patel 告诉 Business Insider,已经存在了几个月的 Blackwell 的设计问题已基本得到解决,并表示过热问题在很大程度上被夸大了。
Semianalysis 的五位监控半导体行业的分析师报告说,触发几家供应商“返工”的冷却系统问题是一个“微小”的变化。Blackwell 的冷却故障在 Nvidia 的大型 72 芯片服务器机架上尤其存在问题,该机架的功耗高达 120kW。由于机架内部的 GPU 过热,机架设计中的设计缺陷迫使 Nvidia 多次重新评估其设计。这阻碍了 Nvidia 的 GB200 硬件的出货量,由于所需的设计更改而导致额外的延迟。
Nvidia 的 B200 GPU 是适用于 AI 工作负载的最强大处理芯片。例如,GB200 超级芯片具有数千瓦的可配置 TDP,峰值额定功率高达 2,700 瓦。这些荒谬的高功率数字使得空气冷却几乎不可能在标准机架安装外形尺寸的限制下使用。
这个物理问题迫使 Nvidia 要求在其最新的 Blackwell GPU 上进行液体冷却。它还要求数据中心改造其服务器场,以适应支持液冷服务器所需的基础设施。
Nvidia 可以通过创建速度较慢的风冷 GPU 来解决这个问题——GPU 制造商仍然以 H200 NVL 等 GPU 的形式这样做。然而,为了保持在 AI GPU 军备竞赛的最前沿,Nvidia 不惜一切代价优先考虑性能,这就是为什么该公司选择以牺牲风冷为代价制造需要数千瓦功率的 GPU。
好消息是,Nvidia 的 72 芯片 Blackwell 冷却问题显然很小,并且已经基本得到解决。此外,只有 Nvidia 的旗舰 72 芯片服务器机架存在问题。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)