Nvidia的GB200 NVL72服务器机架过热问题似乎被夸大了。根据《商业内幕》的报道,Blackwell的冷却设计缺陷已经得到解决。Semianalysis的首席分析师Dylan Patel向《商业内幕》表示,Blackwell的设计问题已经存在几个月,但大多数问题已经得到解决,过热问题被夸大了。
本文引用地址:
Semianalysis的五位半导体行业分析师表示,导致多个供应商进行“返工”的冷却系统问题是一个“小问题”。Blackwell的冷却问题尤其在Nvidia的大型72芯片服务器机架中出现,后者的功率需求可达到120kW。机架设计中的缺陷迫使Nvidia多次重新评估设计,因为机架内的GPU过热。这导致Nvidia的GB200硬件出货延迟,并因需要进行设计更改而进一步推迟。
Nvidia的B200 GPU是AI工作负载中最强大的处理芯片。例如,GB200超级芯片的可配置热设计功率(TDP)高达几千瓦,峰值功率可达2700瓦。这些极高的功率使得在标准机架形式中几乎不可能使用空气冷却。
这一物理问题迫使Nvidia在最新的Blackwell GPU上使用液体冷却。同时,它还要求数据中心重新改造服务器农场,以容纳支持液冷服务器所需的基础设施。
Nvidia可以通过制造较低功率的空气冷却GPU来解决这个问题——该公司仍然制造这种类型的GPU,例如H200 NVL。然而,为了在AI GPU竞赛中保持领先,Nvidia优先考虑性能,而不顾成本,这就是为什么该公司选择制造需要数千瓦功率的GPU,而牺牲空气冷却的原因。
好消息是,Nvidia的72芯片Blackwell冷却问题似乎较轻微,且已大致得到解决。此外,只有Nvidia的旗舰72芯片服务器机架存在这个问题。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)