最近,牙膏厂又支棱起来了!
5月10日,英特尔正式发布了面向AI训练和理解的第二代GPU处理器——Gaudi2。
制程上使用了台积电的7纳米工艺,甚至超过了目前自家最先进的CPU系列。
根据英特尔的测试,Gaudi2的性能最高可以达到英伟达A100的2倍。
兵临「老黄」城下?
Gaudi2以16nm的第一代Gaudi架构为基础,将TPU内核的数量从8个增加到了24个,同时也增加了对FP8数据格式的支持。
再加上全新的台积电7nm工艺,Gaudi2显著改善了训练性能,并提供高达40%的性价比提升。
在新数据格式的支持下,低分辨率推理数据和高分辨率训练数据实现了格式上的统一,在从训练转移到推理时,不必在「浮点」和「整形」之间转换模型。
这对AI计算来说是一个真正的福音。
内存方面,Gaudi2的封装内存增加了两倍,配备共计96GB的HBM2e内存组,带宽为每秒2.45TB。
相比起来,前一代的Gaudi1为4组8GB的HBM2内存。
不过在功耗方面,尽管有着16纳米到7纳米的制程上的飞跃,但Gaudi2的TDP仍从上一代的350w大幅增至600w。
有媒体预测,如果没有重大的架构变化,只靠新的先进制程和硬件升级,预计Gaudi2芯片性能将是前一代Gaudi1的2.5倍。
实际上,2.5倍这个数字,比英特尔官方发布的宣传对比图上的数字(3.2倍)略显保守。原因可能在于,这个图中使用的性能量度是单位时间内处理的图片数量。
在使用 BERT 模型的自然语言处理任务上,Gaudi2与英伟达的A100和V100相比,分别实现了2倍和5.3倍的性能提升。
在实际用例测试中,英特尔在Amazon Web Services上启动了DL1 Gaudi1实例,然后分别基于A100和V100显卡启动了p4d和p3实例,对比结果如下:
英特尔宣称,总体而言,与目前英伟达的解决方案相比,使用Gaudi2可以使训练成本最多降低75%。
7nm VS 4nm
不过,上面这些对比看下来,有一个问题是绕不过去的。
所有的对比中,都没有出现英伟达今年新推出的最强GPU加速器——H100。
目前英伟达还没有透露任何关于H100的具体性能测试结果,但是一直拿自己的「上等马」比对面的「中等马」,还是有点说不过去。
虽然具体测试没有跑,但是配置参数双方都已经公布,有外媒就根据已经公布的信息,对Gaudi2和H100进行了一番理论上的PK:
H100的HBM3内存比A100加速器中使用的HBM2e内存快1.5倍,FP16、TF32和FP64在新的Tensor Cores上则提供了3倍的性能提升。
所以有理由期待,H100在ResNet-50视觉训练工作负载上的性能提升倍数在1.5倍到3倍之间,放到上面的图上,就是每秒处理4395到8790张图片的性能。
而且,H100的最终表现可能更接近这个范围的上限,会与Gaudi2的性能拉开相当大的差距。
此外,根据英伟达自己的介绍,H100的整体性能可以达到A100的6倍。
加上全新NVLink Switch System的优化,在大型计算工作负载任务场景下,性能可以再次得到提高。
不差钱的英特尔:万事不决「买买买」
说到搞CPU,英特尔一直是专家,无论是家用平台还是服务器都是如此。
即使后来或由于图安逸、或由于技术困难而被扣上了「牙膏厂」的名号,但在CPU领域,英特尔的底气一直很足。
但在其他芯片上,比如用于AI计算加速的GPU、用于可编程定制化计算的FPGA,再到芯片代工等领域,英特尔则充分发挥了另一种「财大气粗」的风格。
买!不差钱,就是买!
实际上,如果回顾一下近几年英特尔发起的收购,它花在收购芯片初创企业上的钱,可以说是相当果断而高效。
2015年6月,以167亿美元收购FPGA巨头Altera
2016年8月,以3.5亿美元收购AI芯片公司 Nervana Systems
2019年12月,以20亿美元收购AI芯片公司 Habana Labs
2022年2月,以54亿美元收购芯片制造商高塔半导体
其中,2019年的这笔收购,买下的正是今天推出的Gaudi系列GPU加速器的初创公司。
Habana Lab一直从事GPU计算加速器的研发,在被英特尔收购前,该公司就在2019年1月和6月相继发布了两款面向AI任务的加速芯片。
第一款是Goya HL-1000 推理芯片,第二款就是Gaudi1 AI 训练芯片,正是英特尔今天发布的Gaudi2的前身。
英特尔认为,AI计算是未来的方向所在,在未来五年内,面向AI训练和推理的计算市场会达到500亿美元规模。如果这个预测成真,相信英特尔收购花出去的钱,很快就会赚回来。
但也许,这些都不是重点,目前英特尔正在计划为「至强」Xeon 服务器CPU集成AI功能,并计划在今年推出独立GPU。
让自己「越买越强」,同时让主要竞争对手感到害怕,才是巨头大战中的精髓所在。
英特尔一定希望,这些对手中包括英伟达。
One More Thing
值得一提的是,就在近日,英特尔刚刚发布了一款史上最快的笔记本电脑 CPU,一款 16 核的「性能野兽」。
从今年早些时候发布的第 12 代移动处理器产品线看,此前英特尔在移动端的产品分为三个层次:
适用于高性能笔记本电脑的 H 系列、适用于高端超薄设备的 P 系列,以及适用于最便携笔记本电脑和平板电脑的 U 系列。
但还有一个尚未解决且不容忽视的细分市场:移动工作站。
本次发布的Alder Lake-HX CPU正式填补了这一空白。
这是一款适用于发烧友游戏笔记本电脑和工作站的桌面级芯片。这些处理器由分为酷睿 i5、酷睿 i7 和酷睿 i9 的七个芯片组成,采用 BGA 封装,除了高度略低外,其余尺寸与台式机CPU完全相同。
如此性能带来的是高到飞起的功耗,数据显示,HX CPU初始功耗就达到了惊人的55w,峰值性能功耗更是飙升至157w。
这个功耗下,对于笔记本平台来说,电池续航已经不那么重要了,要考虑的是,需要配备多大的电源适配器的问题。
不知道两块砖头大小够不够。
(声明:本文仅代表作者观点,不代表新浪网立场。)