科技首页创事记互联网电信 IT业界投稿

牙膏厂「小核弹」！台积电7纳米AI加速GPU，性能顶老黄2个A100

2022-05-11 13:20:17 创事记作者：

最近，牙膏厂又支棱起来了！

5月10日，英特尔正式发布了面向AI训练和理解的第二代GPU处理器——Gaudi2。

制程上使用了台积电的7纳米工艺，甚至超过了目前自家最先进的CPU系列。

根据英特尔的测试，Gaudi2的性能最高可以达到英伟达A100的2倍。

兵临「老黄」城下？

Gaudi2以16nm的第一代Gaudi架构为基础，将TPU内核的数量从8个增加到了24个，同时也增加了对FP8数据格式的支持。

再加上全新的台积电7nm工艺，Gaudi2显著改善了训练性能，并提供高达40%的性价比提升。

在新数据格式的支持下，低分辨率推理数据和高分辨率训练数据实现了格式上的统一，在从训练转移到推理时，不必在「浮点」和「整形」之间转换模型。

这对AI计算来说是一个真正的福音。

内存方面，Gaudi2的封装内存增加了两倍，配备共计96GB的HBM2e内存组，带宽为每秒2.45TB。

相比起来，前一代的Gaudi1为4组8GB的HBM2内存。

不过在功耗方面，尽管有着16纳米到7纳米的制程上的飞跃，但Gaudi2的TDP仍从上一代的350w大幅增至600w。

有媒体预测，如果没有重大的架构变化，只靠新的先进制程和硬件升级，预计Gaudi2芯片性能将是前一代Gaudi1的2.5倍。

实际上，2.5倍这个数字，比英特尔官方发布的宣传对比图上的数字（3.2倍）略显保守。原因可能在于，这个图中使用的性能量度是单位时间内处理的图片数量。

在使用 BERT 模型的自然语言处理任务上，Gaudi2与英伟达的A100和V100相比，分别实现了2倍和5.3倍的性能提升。

在实际用例测试中，英特尔在Amazon Web Services上启动了DL1 Gaudi1实例，然后分别基于A100和V100显卡启动了p4d和p3实例，对比结果如下：

英特尔宣称，总体而言，与目前英伟达的解决方案相比，使用Gaudi2可以使训练成本最多降低75%。

7nm VS 4nm

不过，上面这些对比看下来，有一个问题是绕不过去的。

所有的对比中，都没有出现英伟达今年新推出的最强GPU加速器——H100。

目前英伟达还没有透露任何关于H100的具体性能测试结果，但是一直拿自己的「上等马」比对面的「中等马」，还是有点说不过去。

虽然具体测试没有跑，但是配置参数双方都已经公布，有外媒就根据已经公布的信息，对Gaudi2和H100进行了一番理论上的PK：

H100的HBM3内存比A100加速器中使用的HBM2e内存快1.5倍，FP16、TF32和FP64在新的Tensor Cores上则提供了3倍的性能提升。

所以有理由期待，H100在ResNet-50视觉训练工作负载上的性能提升倍数在1.5倍到3倍之间，放到上面的图上，就是每秒处理4395到8790张图片的性能。

而且，H100的最终表现可能更接近这个范围的上限，会与Gaudi2的性能拉开相当大的差距。

此外，根据英伟达自己的介绍，H100的整体性能可以达到A100的6倍。

加上全新NVLink Switch System的优化，在大型计算工作负载任务场景下，性能可以再次得到提高。

不差钱的英特尔：万事不决「买买买」

说到搞CPU，英特尔一直是专家，无论是家用平台还是服务器都是如此。

即使后来或由于图安逸、或由于技术困难而被扣上了「牙膏厂」的名号，但在CPU领域，英特尔的底气一直很足。

但在其他芯片上，比如用于AI计算加速的GPU、用于可编程定制化计算的FPGA，再到芯片代工等领域，英特尔则充分发挥了另一种「财大气粗」的风格。

买！不差钱，就是买！

实际上，如果回顾一下近几年英特尔发起的收购，它花在收购芯片初创企业上的钱，可以说是相当果断而高效。

2015年6月，以167亿美元收购FPGA巨头Altera

2016年8月，以3.5亿美元收购AI芯片公司 Nervana Systems

2019年12月，以20亿美元收购AI芯片公司 Habana Labs

2022年2月，以54亿美元收购芯片制造商高塔半导体

其中，2019年的这笔收购，买下的正是今天推出的Gaudi系列GPU加速器的初创公司。

Habana Lab一直从事GPU计算加速器的研发，在被英特尔收购前，该公司就在2019年1月和6月相继发布了两款面向AI任务的加速芯片。

第一款是Goya HL-1000 推理芯片，第二款就是Gaudi1 AI 训练芯片，正是英特尔今天发布的Gaudi2的前身。

英特尔认为，AI计算是未来的方向所在，在未来五年内，面向AI训练和推理的计算市场会达到500亿美元规模。如果这个预测成真，相信英特尔收购花出去的钱，很快就会赚回来。

但也许，这些都不是重点，目前英特尔正在计划为「至强」Xeon 服务器CPU集成AI功能，并计划在今年推出独立GPU。

让自己「越买越强」，同时让主要竞争对手感到害怕，才是巨头大战中的精髓所在。

英特尔一定希望，这些对手中包括英伟达。

One More Thing

值得一提的是，就在近日，英特尔刚刚发布了一款史上最快的笔记本电脑 CPU，一款 16 核的「性能野兽」。

从今年早些时候发布的第 12 代移动处理器产品线看，此前英特尔在移动端的产品分为三个层次：

适用于高性能笔记本电脑的 H 系列、适用于高端超薄设备的 P 系列，以及适用于最便携笔记本电脑和平板电脑的 U 系列。

但还有一个尚未解决且不容忽视的细分市场：移动工作站。

本次发布的Alder Lake-HX CPU正式填补了这一空白。

这是一款适用于发烧友游戏笔记本电脑和工作站的桌面级芯片。这些处理器由分为酷睿 i5、酷睿 i7 和酷睿 i9 的七个芯片组成，采用 BGA 封装，除了高度略低外，其余尺寸与台式机CPU完全相同。

如此性能带来的是高到飞起的功耗，数据显示，HX CPU初始功耗就达到了惊人的55w，峰值性能功耗更是飙升至157w。

这个功耗下，对于笔记本平台来说，电池续航已经不那么重要了，要考虑的是，需要配备多大的电源适配器的问题。

不知道两块砖头大小够不够。

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

牙膏厂「小核弹」！台积电7纳米AI加速GPU，性能顶老黄2个A100

微博推荐

作者简介

作者文章

推荐阅读

新闻热榜