最科幻发布会，性能翻30倍的恐怖Blackwell芯片，黄仁勋宣告“新工业革命”来了_新浪财经

　　来源：硅星人Pro

　　2024年3月18日的GTC上，黄仁勋正式成了新的乔布斯。

　　当天下午黄仁勋走上台开始演讲，而这次与以往都不同。这场发布会在SAP中心进行，人们在百米长的队伍里要经过两个小时地检票和等待，里外里转好几道弯，才进到演讲会场。这里是硅谷很多演唱会和演出的举办地，占地4.2万平方米，曾举办过滚石和Bon Jovi 演唱会、美国NHL全明星赛，而现在站在舞台中央的是黄仁勋，他让现场的许多开发者想到了乔布斯。

　　在一段预热片后，黄仁勋上台。背景停留在“我是AI”的界面。

　　“希望大家意识到这不是一场演唱会。你来到的是个开发者大会。”黄仁勋说。这是一场只有模拟而没有动画的发布会。他说。这也让后来整场发布会越来越像科幻片。可能是人类历史上最科幻的一场发布会。

　　“今天抵达GTC现场的公司们价值1 trillion。这么多伙伴，需要这么多的算力，怎么办？我们需要大得多的GPU。把所有GPU 连接起来，成千上万个大的GPU里是成千上万小的GPU，百万个GPU让你的效率提升！”

　　然后他简单回顾了一下AI的发展历史，“20年前我们就看到了它会到来”。

　　“然后CUDA和AI做了第一次亲密接触。”他说。“06年推出CUDA的时候，我们以为这是革命性的，会一夜成功，结果一等就等了二十年！”

　　“今天的一切都是homemade。”在一个个通过AI模拟出来的酷炫的视频后，一切铺垫就绪了——英伟达就是这一切进步的基石。是时候该发布重要芯片了。

　　人们对此有预期，但当B200出现的时候，现场（可能包括全世界围观者）都还是忍不住惊呼。

　　这是Hooper后的新一代架构，以数学家Blackwell命名。在性能上，它就是黄仁勋“黄氏定律”的集大成者和奠基者。

　　以下是我用AI总结的Blackwell GPU的性能特点：

高AI性能：B200 GPU提供高达20 petaflops的FP4计算能力，这是由其2080亿个晶体管提供的。
高效推理：当与Grace CPU结合形成GB200超级芯片时，它能在LLM推理工作负载上提供比单个GPU高出30倍的性能，同时在成本和能源消耗上比H100 GPU高出25倍。
训练能力：使用Blackwell GPU，训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个，同时电力消耗从15兆瓦降低到仅四兆瓦。

GPT-3性能：在GPT-3 LLM基准测试中，GB200的性能是H100的七倍，训练速度提高了4倍。
改进的Transformer引擎：第二代Transformer引擎通过使用每个神经元的四位而不是八位，实现了计算、带宽和模型大小的翻倍。
下一代NVLink开关：允许多达576个GPU之间进行通信，提供每秒1.8太比特的双向带宽。
新的网络交换芯片：拥有500亿晶体管和3.6 teraflops的FP8计算能力，用于支持大规模GPU集群的通信。
扩展性：Nvidia的系统可以扩展到数万个GB200超级芯片，通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。

大规模部署：GB200 NVL72设计可以将36个CPU和72个GPU集成到一个液冷机架中，提供总共720 petaflops的AI训练性能或1.4 exaflops的推理性能。
支持大型模型：单个NVL72机架可以支持高达27万亿参数的模型，而且有意思的是，黄仁勋似乎透露了一下GPT-4的参数，它可能是一个约1.7万亿参数的模型。

　　（更多关于B200的解读我们会在今天稍晚带来，欢迎关注硅星人GTC后续报道）

　　黄仁勋回顾了自己送给OpenAI的第一个DGX，它只有0.17Peataflops，而今天的DGX Grace-Blackwell GB200已经超过1 Exaflop的算力。