英特尔AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜

英特尔AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜
2024年09月27日 09:06 电子产品世界

Intel 今天正式推出了适用于 AI 工作负载的 Gaudi 3 加速器。新处理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢,因此英特尔将其 Gaudi 3 的成功押注在其较低的价格和较低的总拥有成本 (TCO) 上。

Intel 的 Gaudi 3 处理器使用两个小芯片,其中包含 64 个张量处理器内核(TPC、256x256 MAC 结构,带 FP32 累加器)、八个矩阵乘法引擎(MME,256 位宽矢量处理器)和 96MB 片上 SRAM 缓存,带宽为 19.2 TB/s。此外,Gaudi 3 还集成了 24 200 GbE 网络接口和 14 个媒体引擎,后者能够处理 H.265、H.264、JPEG 和 VP9 以支持视觉处理。该处理器配备 128GB HBM2E 内存,分为八个内存堆栈,提供 3.67 TB/s 的巨大带宽。

本文引用地址:

与 Gaudi 3 相比,英特尔的 Gaudi 2 代表了巨大的改进,Gaudi 2 具有 24 个 TPC、两个 MME 和携带 96GB 的 HBM2E 内存。但是,英特尔似乎简化了 TPC 和 MME,因为 Gaudi 3 处理器仅支持 FP8 矩阵运算以及 BFloat16 矩阵和向量运算(即不再有 FP32、TF32 和 FP16)。

在性能方面,英特尔表示,Gaudi 3 可以在 600W TDP 左右的情况下提供高达 1856 BF16/FP8 矩阵 TFLOPS 以及高达 28.7 BF16 矢量 TFLOPS。与 NvidiaH100 相比,至少在纸面上,Gaudi 3 的 BF16 矩阵性能略低(1,856 对 1,979 TFLOPS),FP8 矩阵性能低两倍(1,856 对 3,958 TFLOPS),BF16 矢量性能明显较低(28.7 对 1,979 TFLOPS)。

比原始规格更重要的是 Gaudi 3 的实际性能。它需要与 AMD 的 Instinct MI300 系列以及 NvidiaH100 和 B100/B200 处理器竞争。而这还有待观察,因为很大程度上取决于软件和其他因素。目前,英特尔展示了一些幻灯片,声称与 Nvidia 的 H3 相比,Gaudi 100 可以提供显着的性价比优势。

今年早些时候,英特尔表示,基于基板上八个 Gaudi 3 处理器的加速器套件将花费 125,000 美元,这意味着每个处理器的成本约为 15,625 美元。相比之下,Nvidia H100 卡目前的售价为 30,678 美元,因此英特尔确实计划比其竞争对手拥有很大的价格优势。然而,由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能优势,这家蓝色公司是否能够保持其相对于竞争对手的优势还有待观察。

“对 AI 的需求正在导致数据中心的大规模变革,该行业正在寻求硬件、软件和开发人员工具的选择,”英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说。随着我们推出具有 P-core(性能核)和 Gaudi 3 AI 加速器的 Xeon 6,Intel 正在实现一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施其所有工作负载。

英特尔的 Gaudi 3 AI 加速器将从 IBM Cloud 和 Intel Tiber Developer Cloud 获得。此外,基于英特尔至强 6 和高迪 3 的系统将于第四季度从戴尔、慧与和 Supermicro 全面上市,戴尔和 Supermicro 的系统将于 10 月发货,Supermicro 的机器将于 12 月发货。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片