移动客户端

新浪科技> 数码 > 正文

英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录

英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录

2025年03月19日 08:20 IT之家

新浪财经APP 缩小字体放大字体收藏微博微信

IT之家 3 月 19 日消息，英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

据介绍，在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度，系统最高吞吐量突破每秒 3 万 token。

英伟达表示，随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限，其性能将会继续不断提高。

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

单节点配置：DGX B200（8 块 GPU）与 DGX H200（8 块 GPU）
测试参数：最新测试采用 TensorRT-LLM 内部版本，输入 1024 token / 输出 2048 token；此前测试为输入 / 输出各 1024 token；并发
计算精度：B200 采用 FP4，H200 采用 FP8 精度

英伟达表示，通过硬件和软件的结合，他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

节点配置：DGX B200（8 块 GPU）、DGX H200（8 块 GPU）、两个 DGX H100（8 块 GPU）系统

测试参数：依然采用 TensorRT-LLM 内部版本，输入 1024 token / 输出 2048 token；此前测试为输入 / 输出各 1024 token；并发性 MAX
计算精度：B200 采用 FP4，H100 / H200 采用 FP8 精度

与 Hopper 架构相比，Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

英伟达表示，包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B，运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

精度	MMLU	GSM8K	AIME 2024	GPQA Diamond	MATH-500
DeepSeek R1-FP8	90.8%	96.3%	80.0%	69.7%	95.4%
DeepSeek R1-FP4	90.7%	96.1%	80.0%	69.2%	94.2%

英伟达表示，在对模型进行量化以利用低精度计算优势时，确保精度损失最小化是生产部署的关键。IT之家注意到，在 DeepSeek-R1 模型上，相较于 FP8 基准精度，TensorRT Model Optimizer 的 FP4 训练后量化（PTQ）技术在不同数据集上仅产生微乎其微的精度损失。

关键词 : 英伟达推理 AI gpu 软件

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部