悄然崛起的英伟达新对手

悄然崛起的英伟达新对手
2024年06月17日 18:47 创业邦

来源:创业邦

作者丨邵逸琦

图源丨图虫创意

英伟达都有哪些对手?

首选当然是AMD和英特尔,前者本身就有AI加速卡的业务,集CPU和GPU设计能力与一身,而后者呢,作为x86架构的奠基人,如今也涉足AI加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。

而英伟达的客户与博通和Marvell组成统一战线后,也成了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用AI加速卡,让英伟达感受到了另一种压力。

而在网络领域,英伟达也迎来了自己的对手。

英伟达独占AI网络

进入21世纪以来,随着云计算、大数据的日益普及,数据中心得到了快速发展。而InfiniBand在其中发挥了很大的作用,尤其是从2023年开始,以ChatGPT为代表的大型AI模型依赖于InfiniBand,让这一网络技术的关注度进一步提升。

众所周知,现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构,该体系结构中有CPU(算术逻辑单元和控制单元)、内存(RAM、硬盘)和I/O(输入/输出)设备。20世纪90年代初,为了支持越来越多的外部设备,Intel率先在标准PC架构中引入了外围组件互连(PCI)总线设计。

随后,互联网进入快速发展阶段,在线业务和用户规模的不断增长对IT系统容量提出了巨大挑战。在摩尔定律的支持下,CPU、内存、硬盘等部件都在飞速进步,而PCI总线的更新换代速度却比较慢,大大限制了I/O性能,成为了整个系统的瓶颈。

为了解决这个问题,Intel、微软和SUN牵头制定了“下一代I/O(NGIO)”技术标准,而IBM、康柏和惠普则牵头制定了“未来I/O(FIO)”,并于1998年联合制定了PCI-X标准。

1999 年,FIO 开发者论坛和 NGIO 论坛合并成立了InfiniBand 贸易协会 (IBTA)。很快,在2000年,InfiniBand架构规范1.0版本正式发布。InfiniBand诞生的目的就是为了取代PCI总线,它引入了RDMA协议,提供更低的延迟、更高的带宽、更高的可靠性,从而实现更强大的I/O性能。

同样在1999年5月,几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立后加入了 NGIO,后来 NGIO 与 FIO 合并,Mellanox 也加入了 InfiniBand阵营,并于 2001 年推出了第一款 InfiniBand 产品。

而随着英特尔转向PCI Express(PCIe),以及微软退出InfiniBand,该网络技术开始转向计算机集群互联的应用领域,而新成立的Mellanox开始走上舞台,逐渐成为InfiniBand发展过程中的中坚力量。

InfiniBand虽然同时被英特尔和微软放弃,但它在新的领域中找到了增长点。2012年以后,随着高性能计算(HPC)需求的不断增长,InfiniBand技术不断取得长足进步,市场份额不断提升。2015年,InfiniBand技术在TOP500榜单中的份额首次突破50%,达到51.4%(257个系统)。这标志着InfiniBand技术首次成功挑战以太网技术,成为超级计算机首选的内部互连技术。

而Mellanox也在不断成长:2010年,Mellanox与Voltaire合并,Mellanox和QLogic成为InfiniBand的主要供应商;2013年,Mellanox 进一步进军网络领域,收购硅光技术公司 Kotura 和并行光互连芯片制造商 IPtronics,进一步巩固其行业地位;到 2015 年,Mellanox 已占据全球 InfiniBand 市场80% 的份额。业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块,成为世界级网络供应商。

随着AI的持续发展,InfiniBand的价值也日益显现,Mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。

为什么InfiniBand对于AI如此重要?对于AI超级计算机来说,我们可以把它看作一个由许多图形处理单元(GPUs)组成的集群,这些单元进行大量复杂的计算。此外,还有一些中央处理单元(CPUs)负责指挥计算机的操作,再加上一些DRAM芯片和NAND芯片,成本大约分配为:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。

但上述所有的芯片需要互相连接,这可以通过InfiniBand或以太网电缆来实现,也就是所谓的“网络”,它们占硬件成本的10-15%,而目的就是提供尽可能高的带宽,让数据能快速传输,倘若不能实现更高的带宽,那么无论在GPUs上花费多少成本,最后都会变得毫无意义。

英伟达作为AI领域最早的探索者之一,很敏锐地察觉到了这一点,同时决定将其关注点从游戏转向AI。2019 年,英伟达以69 亿美元收购 Mellanox,超过了竞争对手英特尔和微软的出价,后两者的出价分别为 60 亿美元和 55 亿美元,这笔数额庞大的收购,为英伟达进入网络技术市场铺平了道路。

当时英伟达的CEO黄仁勋解释称,收购Mellanox的原因是:“这是两家全球领先的高性能计算公司的合并,我们专注于加速计算,而Mellanox则专注于互连和存储。”

GPU和网络技术捆绑销售,听起来有点像强买强卖,但令许多人都未预料到的是,由黄仁勋所打造的这一模式迅速取得了成功。截至今年1月,英伟达的年收入翻了一番多,达到609亿美元,计算和网络部门的销售额增长了215%,占英伟达业务的78%。虽然英伟达的GPU部分引起了大量关注,但其网络业务也是成功的关键。在公司的最后一次财报电话会议上,黄仁勋表示,InfiniBand的收入同比增长了五倍,意味着其增长速度约为整个计算和网络业务的两倍。

英伟达将自身的 GPU 算力与 Mellanox 的网络技术相结合,打造出了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据着领先优势,

英伟达的大威胁

过去,业界一直在使用英伟达配套的 InfiniBand 网络解决方案来部署人工智能和机器学习技术,原因很简单,它是目前最成熟的支持大规模部署的网络技术,但InfiniBand并非完美,一方面由于收购,它变成了英伟达的独家产品,另一方面,它的成本昂贵,绝非普通企业可以轻松承担得起的。

英伟达的CEO黄仁勋曾调侃道,InfiniBand只占集群成本的20%,而它能将人工智能训练的性能提高20%,某种程度上已经收回了成本,因而InfiniBand实际上是免费的。但这样的论断显然是有失偏颇的,客户必须首先拿出集群成本的20%,才能真正榨取出集群的性能,这就意味着用120%的成本创造120%的性能。

相对比之下,基于以太网的集群通常只需要额外的10% 甚至更低的成本,尽管后者在性能上往往难以与InfiniBand匹敌,但它凭着自己的低廉价格也争取到了一部分用户。事实上,如今高性能网络的竞争,是InfiniBand与高速以太网的较量,资源充足的厂商会更倾向于选择InfiniBand,而注重性价比的厂商则可能倾向于高速以太网。

但这样的情况并非一成不变,即便是那些具备雄厚财力的大企业,也在寻找更廉价更合适的网络方案,英伟达与InfiniBand正在不断受到挑战。

2023年7月,Linux基金会宣布,将监督成立一个超级以太网联盟,该联盟的创始成员包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软的支持下,超以太网联盟表示将致力于改进以太网,以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。

该联盟创立的首要任务是定义和开发他们所称的超以太网传输(UET)协议,这是一种新的以太网传输层协议,能更好地满足人工智能和 HPC 工作负载的需求。

在高层次上,超以太网联盟希望以外科手术的方式完善以太网,只对实现目标所必需的部分进行改进和改动。从一开始,该联盟就着眼于改进以太网技术的软件层和物理层,但不改变其基本结构,以确保成本效益和互操作性。

联盟的技术目标包括开发规范、应用程序接口和源代码,以定义超以太网通信的协议、接口和数据结构。此外,联盟还致力于更新现有的链路和传输协议,创建新的遥测、信令、安全和拥塞机制,以更好地满足大型人工智能和高性能计算集群的需求。同时,由于人工智能和高性能计算工作负载有许多不同之处,UET 将为适当的部署提供单独的配置文件。

得益于这个超级以太网联盟,过去以太网运行 AI 工作负载的几个问题正在解决,也推动了以太网在传统 HPC 工作负载中的更广泛采用,这也让以太网网络公司找到了反攻InfiniBand的机会。

超级以太网联盟成员之一,以太网络公司Arista Networks在今年2月的财报电话会议中,其首席执行官Jayshree Ullal解释了InfiniBand和以太网之间的区别:“如你所知,从历史上看,当单独考虑InfiniBand和以太网时各有优势。传统上,InfiniBand被认为是无损的,而以太网被认为有一些损失特性。然而当你实际将一个完整的GPU集群连同光学设备等一同考虑,并查看所有数据包大小上的任务完成时间一致性时,数据——包括来自博通的第三方数据——显示在现实环境中比较这些技术,以太网的任务完成时间大约快10%。所以,你可以孤立地看待这些技术,也可以在实际集群中看待它们。而在实际集群中,我们已经看到以太网的改进。请记住,这只是我们今天所知的以太网。一旦我们有了超级以太网联盟和一些改进,比如数据包喷洒、动态负载平衡和拥塞控制,我相信这些数字会变得更好。”

“Arista声称其以太网在任务完成速度上比InfiniBand快约10%,这一点令我们感到意外,特别是考虑到InfiniBand在当前GPU集群中的深度渗透。”Jefferies分析师George Notter在会议后表示。

他指出,英伟达将GPUs与InfiniBand简单捆绑销售是该技术成功的关键原因,换句话说,InfiniBand受欢迎的部分原因是因为它与英伟达的GPU一起销售,但这现在GPU的积压订单减少了,使用InfiniBand的动机可能也会减少,这对Arista以及另一家以太网网络公司博通来说是个好消息。

“我们在四个主要的AI以太网集群中取得了进展,这些集群都是我们战胜InfiniBand的案例。在所有四个案例中,我们现在正从试验转向试点,每年连接数千个GPU,”Arista首席执行官Jayshree Ullal解释道。

Arista在上季度业绩表现也非常不错,截至3月的三个月中,Arista的收入同比增长了16%,每股收益增长了44%,分析师预计随着AI基础设施支出的增加,这一增长将会加速。Arista约40%的业务来自微软和Meta,这两家公司都宣布明年将再次增加资本支出。Jefferies分析师George Notter最近还将Arista的评级从持有上调至买入,他表示:“现在,部署基于GPU的基础设施(包括以太网)的热潮将会持久。”

Arista并不是唯一一家受益于“部署热潮”的网络公司。博通截至2月4日的三个月收入同比增长了34%,达到120亿美元,其中网络收入增长了46%,达到33亿美元。“这主要是由于我们的两个超大规模客户对AI加速器的强劲需求,”博通首席执行官Hock Tan在财报电话会议上解释道。

对网络硬件的需求比博通预期的还要快,“超大规模客户以及部署AI数据中心的大型企业的强劲需求”推动了这一增长。因此,博通将其网络业务的全年增长预期从30%上调至35%。整体而言,博通今年的收入预计为500亿美元,比去年增长40%。

国外媒体nextplatform提出了一个有趣的数学问题:Arista Networks 在 AI 集群互连销售中每赚取 7.5 亿美元,英伟达可能会损失 15 亿至 22.5 亿美元。在过去的 12 个月中,粗略估计英伟达在 InfiniBand 网络方面的销售额为 64.7 亿美元,而数据中心的 GPU 计算销售额为 397.8 亿美元,在四比一的分红率和稳定的市场条件下,英伟达可以保留约 13 亿美元,而超级以太网联盟可以保留 17 亿至 26 亿美元,如果一切保持不变,InfiniBand 的销售目标将达到 120 亿美元。

该媒体指出,超级以太网联盟的成员可以抢占的市场份额很大,但他们将通过从系统中移除收入来抢占,就像 Linux 对 Unix 所做的那样,而不是将收入从一种技术转换为另一种技术,其中节省下来的资金将重新投入到 GPU 中。

挑战英伟达

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片