AI“大行其道” 英伟达“坐享其成”|英伟达_新浪财经

　　来源：中国经营报

　　本报记者秦枭北京报道

　　ChatGPT在全球的关注度持续火热，再次将AI产业推到聚光灯下，科技巨头争相谋局落子，继微软、谷歌之后，国内企业百度、阿里巴巴等也先后发布大模型，并进行用户测试和企业应用接入。随着AI产业迎来“iPhone时刻”，算力需求正在持续释放，以AI服务器核心零部件GPU（图像处理器、加速芯片）为代表的供给端走俏，其价格也在不断上涨，而在AI芯片GPU市场占据绝对优势的英伟达也赚得盆满钵满。

　　多位业内人士在接受《中国经营报》记者采访时表示，大型模型通常需要庞大的算力和存储资源来进行训练，GPU已成为 AI 加速芯片通用性解决方案，越来越多的企业和个人开始使用GPU来训练大型深度学习模型。这种需求的增加可能导致GPU的价格上涨，从而导致显卡价格的上涨。此外，由于供应链问题、半导体短缺等因素的影响，显卡价格的波动也可能受到一定程度的干扰。

　　英伟达大秀肌肉

　　AI场景需要多核、高并发、高带宽AI芯片。AI芯片，也被称为AI加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块。当前，AI芯片主要分为GPU 、FPGA，及以TPU、VPU为代表的ASIC芯片，而 GPU凭借其高性能、高灵活度特点成为AI 加速方案首选。据 IDC 数据，预计到2025年，GPU仍将占据AI芯片80%市场份额。

　　资料显示，2018年OpenAI开发的GPT-1的预训练大模型参数为1.1亿，2019年发布的GPT-2提高至15亿，2020年GPT-3的预训练大模型参数已经提高至1750亿。而为了训练ChatGPT，OpenAI构建了由近3万张英伟达V100显卡组成的庞大算力集群，GPT-4更是达到了100万亿的参数规模，其对应的算力需求同比大幅增加。

　　TrendForce分析认为，要处理近1800亿参数的GPT-3.5大型模型，需要2万颗GPU芯片，而大模型商业化的GPT需要超过3万颗。GPT-4则需要更多。

　　不仅如此，目前主流 AI 厂商都进入了“千亿参数时代”，多采用了英伟达的 GPU。以科大讯飞星火认知大模型为例，其使用了英伟达的T4 Tensor Core GPU进行训练。除了T4 Tensor Core GPU，科大讯飞还使用了其他类型的GPU和其他硬件设备来支持其深度学习平台的开发和应用。这些硬件设备包括英伟达的PaddlePaddle、NVIDIA Tesla V100、AMD EPYC等，以及多种CPU、内存、网络设备等。

　　昆仑万维集团CEO方汉也表示： “超过千亿级别的大模型，它的训练大概需要1000—2000张A100的卡，没有2000张A100的卡，实验都做不了。”

　　招商证券指出，从通用服务器到AI服务器，一个最显著的变化就是GPU取代了CPU成为整机最核心的运算单元以及价值量占比最大的部分，传统服务器通常至多配备4个CPU+相应内存和硬盘，在AI服务器中，通常是2颗CPU+8颗GPU，部分高配4U服务器中甚至可以搭配16颗GPU，预计AI服务器中GPU+CPU+存储的价值量占比有望达到80%以上的水平。

　　据统计，英伟达当前在售的用于大模型训练的GPU卡至少有9款型号，其中高性能的有4款，分别是V100、A800、A100及H100。而此轮AI“军备竞赛”也让用于上述显卡的价格一路高涨。其中，A100此前售价在1.5万美元（约合人民币10.35万元），但目前在一些平台上，此款显卡价格上涨到15万元左右。

　　英伟达也借机赚足了“钱包”。TrendForce 数据显示，如果以英伟达 A100 显卡的处理能力计算，GPT-3.5大模型需要2万块GPU来处理训练数据。目前英伟达 A100 显卡的售价在 10000~15000 美元之间，预估英伟达可以赚3亿美元（约20多亿元人民币）。

　　值得注意的是，英伟达还在源源不断地为这场军备竞赛输送弹药。在此前GTC开发者大会上，英伟达推出了新的Hoppper CPU——配有双 GPU NVLink 的 H100 NVL，这是专门针对算力需求巨大的 ChatGPT 而设计的显卡，拥有夸张的 188GB HBM3 内存（每张卡 94GB）。

　　不过，即使价格上涨，目前市面上几乎“一卡难求”。一位业内人士对记者表示，客户对英伟达A100/H100芯片需求强劲，后者订单能见度已至2024年，更紧急向代工厂台积电追单。

　　国产厂商的机遇

　　虽然国内外的大模型项目接连落地，但除了百度、阿里巴巴等企业采用自研芯片外，国内大多数企业仍难求高端GPU。据透露，国内可用于训练AI大模型的A100大约有4万—5万个。

　　英伟达在去年收到美国政府的通知，通知称：“若对中国（含中国香港）和俄罗斯的客户出口两款高端GPU芯片——A100和H100，需要新的出口许可。”不仅如此，该许可证要求还包括未来所有的英伟达高端集成电路，只要其峰值性能和芯片间I/O性能均大于或等于A100的阈值，以及包括这些高端电路的任何系统，都被纳入许可证限制范围。

　　不过，英伟达针对中国客户推出了替代型号A800，与原有的A100系列计算卡相比，A800系列的规格基本相同，比较大的区别在于NVLink互连总线的连接速率，前者为600GB/s，后者限制在了400GB/s。综合使用效率只有A100的70%左右。前不久英伟达还发布了特供版的 H800，作为其旗舰芯片 H100 的替代版。

　　4月14日，腾讯云正式发布新一代HCC（High-Performance Computing Cluster）高性能计算集群。据悉，该集群采用腾讯云星星海自研服务器，搭载英伟达最新代次H800 GPU，H800基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比，H800的性能提升了3倍，在显存带宽上也有明显的提高，达到3TB/s。

　　伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局，PC和服务器的需求上升有望为国内GPU市场带来整体拉动效应。

　　目前，国内已涌现出一批优秀的GPU设计和制造厂商。

　　其中，海光信息目前已经成功掌握高端协处理器微结构设计等核心技术，并以此为基础推出了性能优异的DCU产品。其深算一号产品和英伟达A100及AMD高端GPU产品（MI100）进行对比，单芯片产品基本能达到其70%的性能水平。

　　值得注意的是，上述业内人士表示，虽然国内的GPU厂商取得了一些成绩，但是由于GPU研发难度大、开发周期长，例如A100，英伟达只用了三个月的时间便研发出替代方案，而国内却并不多见。而且目前中国GPU开发者大多使用国外厂家提供的IP，自主性不高，不过经过多年沉淀是能够实现国产替代的。