每秒 110 万个 token！微软联手英伟达刷新 AI 推理纪录_新浪科技

IT之家 11 月 5 日消息，微软当地时间 11 月 4 日宣布，其 Azure ND GB300 v6 虚拟机在运行 Meta 的 Llama2 70B 模型时，推理速度达到了每秒 110 万个 token。

IT之家注意到，微软首席执行官萨提亚・纳德拉（Satya Nadella）在 X 平台（原 Twitter）上表示：“这一行业纪录的实现，得益于我们与英伟达长期的联合创新，以及我们在生产级规模运行人工智能方面的专业能力。”

Azure ND GB300 虚拟机由英伟达 Blackwell Ultra GPU 提供动力，具体基于 NVIDIA GB300 NVL72 系统。该系统在单个机架级配置中集成了 72 颗 NVIDIA Blackwell Ultra GPU 和 36 颗 NVIDIA Grace CPU。

该虚拟机专门针对推理工作负载进行了优化，GPU 内存容量提升了 50%，热设计功耗（TDP）提高了 16%。

为验证性能提升，微软在单个 NVIDIA GB300 NVL72 域内的 18 个 ND GB300 v6 虚拟机上，分别运行了 MLPerf Inference v5.1 基准测试中的 Llama2 70B 模型（采用 FP4 精度），并使用 NVIDIA TensorRT-LLM 作为推理引擎。

微软表示：“单个 NVL72 机架的 Azure ND GB300 v6 虚拟机实现了总计每秒 1,100,000 个 token 的推理吞吐量。这刷新了 AI 推理领域的新纪录，超越了此前在同一 NVIDIA GB200 NVL72 机架上使用 ND GB200 v6 虚拟机所创下的每秒 865,000 个 token 的纪录。”

由于该系统包含 72 颗 Blackwell Ultra GPU，其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。

微软已详细公开了本次测试的完整数据，包括全部日志文件和详尽的测试结果。该性能结果已由独立的性能验证与基准测试机构 Signal65 进行认证。