英特尔AI Gaudi 3 加速器：比 Nvidia H100慢但更便宜|英特尔|处理器|AI_新浪科技

Intel 今天正式推出了适用于 AI 工作负载的 Gaudi 3 加速器。新处理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢，因此英特尔将其 Gaudi 3 的成功押注在其较低的价格和较低的总拥有成本（TCO）上。

Intel 的 Gaudi 3 处理器使用两个小芯片，其中包含 64 个张量处理器内核（TPC、256x256 MAC 结构，带 FP32 累加器）、八个矩阵乘法引擎（MME，256 位宽矢量处理器）和 96MB 片上 SRAM 缓存，带宽为 19.2 TB/s。此外，Gaudi 3 还集成了 24 200 GbE 网络接口和 14 个媒体引擎，后者能够处理 H.265、H.264、JPEG 和 VP9 以支持视觉处理。该处理器配备 128GB HBM2E 内存，分为八个内存堆栈，提供 3.67 TB/s 的巨大带宽。

本文引用地址：

与 Gaudi 3 相比，英特尔的 Gaudi 2 代表了巨大的改进，Gaudi 2 具有 24 个 TPC、两个 MME 和携带 96GB 的 HBM2E 内存。但是，英特尔似乎简化了 TPC 和 MME，因为 Gaudi 3 处理器仅支持 FP8 矩阵运算以及 BFloat16 矩阵和向量运算（即不再有 FP32、TF32 和 FP16）。

在性能方面，英特尔表示，Gaudi 3 可以在 600W TDP 左右的情况下提供高达 1856 BF16/FP8 矩阵 TFLOPS 以及高达 28.7 BF16 矢量 TFLOPS。与 Nvidia 的 H100 相比，至少在纸面上，Gaudi 3 的 BF16 矩阵性能略低（1,856 对 1,979 TFLOPS），FP8 矩阵性能低两倍（1,856 对 3,958 TFLOPS），BF16 矢量性能明显较低（28.7 对 1,979 TFLOPS）。

比原始规格更重要的是 Gaudi 3 的实际性能。它需要与 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 处理器竞争。而这还有待观察，因为很大程度上取决于软件和其他因素。目前，英特尔展示了一些幻灯片，声称与 Nvidia 的 H3 相比，Gaudi 100 可以提供显着的性价比优势。

今年早些时候，英特尔表示，基于基板上八个 Gaudi 3 处理器的加速器套件将花费 125,000 美元，这意味着每个处理器的成本约为 15,625 美元。相比之下，Nvidia H100 卡目前的售价为 30,678 美元，因此英特尔确实计划比其竞争对手拥有很大的价格优势。然而，由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能优势，这家蓝色公司是否能够保持其相对于竞争对手的优势还有待观察。

“对 AI 的需求正在导致数据中心的大规模变革，该行业正在寻求硬件、软件和开发人员工具的选择，”英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说。随着我们推出具有 P-core（性能核）和 Gaudi 3 AI 加速器的 Xeon 6，Intel 正在实现一个开放的生态系统，使我们的客户能够以更高的性能、效率和安全性实施其所有工作负载。

英特尔的 Gaudi 3 AI 加速器将从 IBM Cloud 和 Intel Tiber Developer Cloud 获得。此外，基于英特尔至强 6 和高迪 3 的系统将于第四季度从戴尔、慧与和 Supermicro 全面上市，戴尔和 Supermicro 的系统将于 10 月发货，Supermicro 的机器将于 12 月发货。