Nvidia的Blackwell AI GPU过热问题似乎被过度夸大——半导体分析师透露,冷却问题已大多得到解决

Nvidia的Blackwell AI GPU过热问题似乎被过度夸大——半导体分析师透露,冷却问题已大多得到解决
2024年11月21日 15:21 电子产品世界

Nvidia的GB200 NVL72服务器机架过热问题似乎被夸大了。根据《商业内幕》的报道,Blackwell的冷却设计缺陷已经得到解决。Semianalysis的首席分析师Dylan Patel向《商业内幕》表示,Blackwell的设计问题已经存在几个月,但大多数问题已经得到解决,过热问题被夸大了。

本文引用地址:

Semianalysis的五位半导体行业分析师表示,导致多个供应商进行“返工”的冷却系统问题是一个“小问题”。Blackwell的冷却问题尤其在Nvidia的大型72芯片服务器机架中出现,后者的功率需求可达到120kW。机架设计中的缺陷迫使Nvidia多次重新评估设计,因为机架内的GPU过热。这导致Nvidia的GB200硬件出货延迟,并因需要进行设计更改而进一步推迟。

Nvidia的B200 GPU是AI工作负载中最强大的处理芯片。例如,GB200超级芯片的可配置热设计功率(TDP)高达几千瓦,峰值功率可达2700瓦。这些极高的功率使得在标准机架形式中几乎不可能使用空气冷却。

这一物理问题迫使Nvidia在最新的Blackwell GPU上使用液体冷却。同时,它还要求数据中心重新改造服务器农场,以容纳支持液冷服务器所需的基础设施。

Nvidia可以通过制造较低功率的空气冷却GPU来解决这个问题——该公司仍然制造这种类型的GPU,例如H200 NVL。然而,为了在AI GPU竞赛中保持领先,Nvidia优先考虑性能,而不顾成本,这就是为什么该公司选择制造需要数千瓦功率的GPU,而牺牲空气冷却的原因。

好消息是,Nvidia的72芯片Blackwell冷却问题似乎较轻微,且已大致得到解决。此外,只有Nvidia的旗舰72芯片服务器机架存在这个问题。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片