每秒 110 万个 token!微软联手英伟达刷新 AI 推理纪录

每秒 110 万个 token!微软联手英伟达刷新 AI 推理纪录
2025年11月05日 15:01 IT之家

IT之家 11 月 5 日消息,微软当地时间 11 月 4 日宣布,其 Azure ND GB300 v6 虚拟机在运行 Meta 的 Llama2 70B 模型时,推理速度达到了每秒 110 万个 token。

IT之家注意到,微软首席执行官萨提亚・纳德拉(Satya Nadella)在 X 平台(原 Twitter)上表示:“这一行业纪录的实现,得益于我们与英伟达长期的联合创新,以及我们在生产级规模运行人工智能方面的专业能力。”

Azure ND GB300 虚拟机由英伟达 Blackwell Ultra GPU 提供动力,具体基于 NVIDIA GB300 NVL72 系统。该系统在单个机架级配置中集成了 72 颗 NVIDIA Blackwell Ultra GPU 和 36 颗 NVIDIA Grace CPU。

该虚拟机专门针对推理工作负载进行了优化,GPU 内存容量提升了 50%,热设计功耗(TDP)提高了 16%。

为验证性能提升,微软在单个 NVIDIA GB300 NVL72 域内的 18 个 ND GB300 v6 虚拟机上,分别运行了 MLPerf Inference v5.1 基准测试中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作为推理引擎。

微软表示:“单个 NVL72 机架的 Azure ND GB300 v6 虚拟机实现了总计每秒 1,100,000 个 token 的推理吞吐量。这刷新了 AI 推理领域的新纪录,超越了此前在同一 NVIDIA GB200 NVL72 机架上使用 ND GB200 v6 虚拟机所创下的每秒 865,000 个 token 的纪录。”

由于该系统包含 72 颗 Blackwell Ultra GPU,其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。

微软已详细公开了本次测试的完整数据,包括全部日志文件和详尽的测试结果。该性能结果已由独立的性能验证与基准测试机构 Signal65 进行认证。

Signal65 实验室副总裁拉斯・费洛斯(Russ Fellows)在其博客中指出:“这一里程碑不仅在于率先突破了每秒百万 token 的大关,成为行业首次,更在于它是在一个专为满足现代企业动态使用需求和数据治理要求而设计的平台上实现的。”

Signal65 还补充道,与上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗仅增加了 17%。

“与 NVIDIA H100 世代相比,GB300 在机架级测试中实现了近 10 倍的推理性能提升,同时能效比提高了近 2.5 倍。”该公司进一步表示。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片