移动客户端

滚动新闻 > 正文

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

2024年03月19日 08:13 市场资讯

新浪财经APP 缩小字体放大字体收藏微博微信

　　来源：新智元报道

　　编辑：编辑部

　　【新智元导读】就在刚刚，老黄又来打破摩尔定律了：英伟达新核弹B200，一块能顶5个H100，30倍推理加速，能训万亿参数大模型！同时推出的AI推理微服务NIM，号称让全世界用上AI。

　　就在刚刚结束的GTC人工智能大会上，英伟达的新一代性能巨兽Backwell诞生了！

　　Blackwell B200 GPU，是如今世界上最强大的AI芯片，旨在‘普惠万亿参数的AI’。

　　本来，H100已经使英伟达成为价值数万亿美元的公司，赶超了谷歌和亚马逊，但现在，凭着Blackwell B200和GB200，英伟达的领先优势还要继续领先。

　　老黄表示——‘H100很好，但我们需要更大的GPU’！

　　新的B200 GPU，从2080亿个晶体管中能提供高达20 petaflops的FP4性能。（H100仅为4 petaflops）

　　而将两个B200与单个Grace CPU相结合的GB200，则可以为LLM推理工作负载提供30倍的性能，同时大大提高效率。

　　比起H100，GB200的成本和能耗降低了25倍！

　　Blackwell芯片和Hopper H100芯片的尺寸比较

　　这种额外的处理能力，就能让AI公司训练更大、更复杂的模型，甚至可以部署一个27万亿参数的模型。

　　更大的参数，更多的数据，未来的AI模型，无疑会解锁更多新功能，涌现出更多新的能力。

　　现在，老黄拿在手里的，或许是100亿美元。

　　新一代性能巨兽，深夜重磅登场

　　凭借H100成为全球市值第三大公司的英伟达，今天再次推出了性能野兽——Blackwell B200 GPU和GB200‘超级芯片’。

　　它以著名数学家David Blackwell（1919-2010）命名。他一生中对博弈论、概率论做出了重要的贡献。

　　老黄表示，‘30年来，我们一直在追求加速计算，目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术，而Blackwell将是推动这场新工业革命的引擎’。

　　‘我们认为这是个完美的博弈概率’。

　　全新B200 GPU拥有2080亿个晶体管，采用台积电4NP工艺节点，提供高达20 petaflops FP4的算力。

　　与H100相比，B200的晶体管数量是其（800亿）2倍多。而单个H100最多提供4 petaflops算力，直接实现了5倍性能提升。

　　而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起，能够为LLM推理工作负载提供30倍性能，同时还可以大大提高效率。

　　值得一提的是，与H100相比，它的成本和能耗‘最多可降低25倍’。

　　过去，训练一个1.8万亿参数的模型，需要8000个Hopper GPU和15MW的电力。

　　如今，2000个Blackwell GPU就能完成这项工作，耗电量仅为4MW。

　　在GPT-3（1750亿参数）大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。

　　GB200由2个GPU、1个CPU、一个主板组成

　　全新芯片其中一个关键改进是，采用了第二代Transformer引擎。

　　对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将算力、带宽和模型参数规模提高了一倍。

　　与此同时，英伟达还推出了第五代NVLink网络技术。

　　最新的NVLink迭代增强了数万亿参数AI模型的性能，提供了突破性的每GPU双向吞吐量，促进了无缝高速通信。

　　这也就是第二个关键区别，只有当你连接大量这些GPU时才会出现：新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。

　　这就要求英伟达打造一个全新的网络交换芯片，其中包含500亿个晶体管和一些自己的板载计算：拥有3.6 teraflops FP8处理能力。

　　在此之前，由16个GPU组成的集群，有60%的时间用于相互通信，只有40%的时间用于实际计算。

　　Blackwell GPU增加了对FP4和FP6的支持

　　另外，Blackwell还配备了RAS引擎。

　　为了确保可靠性、可用性和可维护性，Blackwell GPU集成了专用引擎和基于AI的预防性维护功能，以最大限度地延长系统正常运行时间并最大限度地降低运营成本。

　　老黄表示，‘过去8年，计算规模扩展已经增加了1000倍’。

　　网友：新的摩尔定律诞生了！

　　网友们纷纷惊叹，Blackwell再一次改变了摩尔定律。

　　英伟达高级科学家Jim Fan表示：Blackwell，城里的新野兽。

- DGX Grace-Blackwell GB200：单机架计算能力超过1 Exaflop。

- 从这个角度来看：老黄交付给OpenAI的第一台DGX是0.17 Petaflops。

- GPT-4-1.8T参数在2000张Blackwell上可在90天内完成训练。

　　新摩尔定律诞生了。

　　贾扬清回忆道，‘我记得在Meta，当我们在一小时内（2017年）训练ImageNet时，总计算量约为1exaflop。这意味着有了新的DGX，理论上你可以在一秒钟内训练ImageNet’。

　　还有网友表示，‘这简直就是野兽，比H100强太多’。

　　另有网友戏称，‘老黄确认GPT-4是1.8万亿参数’。

　　所以，GB200的成本是多少呢？英伟达目前并没有公布。

　　此前据分析师估计，英伟达基于Hopper的H100芯片，每颗的成本在25，000美元到40，000美元之间，整个系统的成本高达200，000美元。

　　而GB200的成本，只可能更高。

　　新超算可训万亿参数大模型

　　当然，有了Blackwell超级芯片，当然还会有Blackwell组成的DGX超算。

　　这样，公司就会大量购入这些GPU，并将它们封装在更大的设计中。

　　GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，可实现总计720 petaflops的AI训练性能，或是1，440 petaflops（1.4 exaflops）的推理性能。

　　它内部共有5000条独立电缆，长度近两英里。

　　它的背面效果如下图所示。

　　机柜中的每个机架包含两个GB200芯片，或两个NVLink交换机。一共有18个GB200芯片托盘，9个NVLink交换机托盘有。

　　老黄现场表示，‘一个GB200 NVL72机柜可以训练27万亿参数的模型’。

　　此前传言称，GPT-4的参数规模达1.8万亿，相当于能训练近15个这样的模型。

　　与H100相比，对于大模型推理工作负载，GB200超级芯片提供高达30倍的性能提升。

　　那么，由8个系统组合在一起的就是DGX GB200。

　　总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。

　　这一系统可以扩展到数万个GB200超级芯片，通过Quantum-X800 InfiniBand（最多144个连接）或Spectrum-X800ethernet（最多64个连接）与800Gbps网络连接在一起。

　　配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。

　　除了第五代NVIDIA NVLink，该架构还包括NVIDIA Bluefield-3 DPU，并将支持Quantum-X800 InfiniBand网络。

　　这种架构可以为平台中的每个GPU提供高达每秒1，800 GB的带宽。

　　除此之外，英伟达还发布了统一的超算平台DGX B200，用于AI模型训练、微调和推理。

　　它包括8个Blackwell GPU和2个第五代Intel Xeon处理器，包含FP4精度功能，提供高达144 petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。

　　这使得万亿参数模型的实时推理速度，比上一代产品提高了15倍。

　　用户还可以使用DGX B200系统构建DGX SuperPOD，创建人工智能卓越中心，为运行多种不同工作的大型开发团队提供动力。

　　目前，亚马逊、谷歌、微软已经成为最新芯片超算的首批用户。

　　亚马逊网络服务，将建立一个拥有20，000 GB200芯片的服务器集群。

　　‘不只是一个芯片，更是一个平台’

　　自从ChatGPT于2022年底掀起AI热潮以来，英伟达的股价已经上涨了五倍之多，总销售额增长了两倍多。

　　因为英伟达的GPU对于训练和部署大型AI模型至关重要，微软、Meta等大公司都已纷纷豪掷数十亿购买。

　　如今各大公司和软件制造商还在争先恐后地抢购Hopper H100等芯片呢，GB200就已经出了。

　　老黄表示，Blackwell不是一个芯片，而是一个平台的名称。

　　从此，英伟达不再是芯片供应商，而更像是微软、苹果这样的平台提供商，可以让其他公司在平台上构建软件。

　　英伟达副总裁Manuvir Das表示，GPU是可销售的商业产品，而软件，是为了帮人们用不同的方式使用GPU。

　　虽然英伟达现在仍然售卖GPU，但真正不同的是，英伟达现在有了商业软件业务。

　　新软件NIM，代表着英伟达的推理微服务。

　　NIM使得在英伟达的任何GPU上运行程序都变得更容易，即使是可能更适合部署但不适合构建AI的旧GPU。

　　也就是说，假如一名开发者有一个有趣的模型，希望向人们推广，就可以把它放到NIM中。英伟达会确保它可以在所有的GPU上运行，这样模型的受众就大大扩展了。

　　NIM使得部署AI变得更容易，这就更加增加了客户使用英伟达芯片的粘性。

　　并且，与新AI模型的初始训练相比，NIM的推理需要更少的算力。

　　这样，想要运行自己AI模型的公司，就能运行自己的AI模型，而不是从OpenAI等公司购买对AI结果的访问权。

　　需要购买基于英伟达服务器的客户，需要注册Nvidia企业版，每个GPU每年需要花费4，500美元。

　　英伟达将与微软或Hugging Face等人工智能公司合作，确保他们的人工智能模型经过调整，可以在所有兼容的英伟达芯片上运行。

　　然后，使用NIM，开发者可以在自己的服务器或基于云的英伟达服务器上，高效运行模型，而无需冗长的配置过程。

　　Das介绍说，在自己调用OpenAI的代码中，他只替换了一行代码，就指向了NIM。

　　另外，NIM软件还将帮助AI在配备GPU的笔记本电脑上运行，而不是在云端的服务器上。

　　NIM支持跨多个领域的AI用例，包括LLMs、视觉语言模型（VLM）以及用于语音、图像、视频、3D、药物发现、医学成像等的模型。

　　AI API就是未来的软件。在未来，所有LLM都可以从云端获取，从云上下载，运行它的工作站。

　　终极生成式AI模型

　　而现在，整个行业都已经为Blackwell准备好了。

　　2012年，将一只小猫的图片输入，AlexNet识别后输出‘cat’，让世界所有人为之震惊，并高呼这改变了一切。

　　而现在从三个字‘cat’输出10 million 像素成为了可能。仅用了10年时间，我们就可以识别文本、图像、视频。

　　万物都皆可数字化。

　　网友表示，老黄向我们展示了GenAI的终极游戏：多模态输入——多模态输出。

　　‘这是我们总有一天都会使用的最终模型。它可以获取任何模态并生成任何模态。同时，它还能在没有每个部件的情况下工作’。

　　数字化的目的是让所有的目标都能成为机器学习的目标，从而让它们都能被AI生成。

　　比如，数字孪生地球，可以很好地帮助我们了解全球气象气候的变化。

　　将基因、蛋白质、氨基酸数字化，可以让人类去理解生命的力量。

　　在大会接近尾声时，活动迎来了一个小高潮：WALL-E机器人也登台表演了。

　　而生成式AI的未来应用不仅于此。

　　现在，有了世界最强的处理器Blackwell，新一轮技术革命即将开启。

海量资讯、精准解读，尽在新浪财经APP

责任编辑：江钰涵

VIP课程推荐

加载中...

APP专享直播

上一页下一页

1/10

新浪财经公众号

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

股市直播

7X24小时

新浪首页语音播报返回顶部