苹果ReDrafter技术已集成至TensorRT-LLM，可提升NVIDIA GPU的推理效率|苹果_新浪财经

12月18日，苹果宣布ReDrafter（Recurrent Drafter）技术已集成至TensorRT-LLM。据悉，ReDrafter技术是一种全新的LLM文本生成方法，该技术使用RNN草稿模型，并结合了beam search算法以及dynamic tree attention机制，可以让开源模型最多每步生成3.5个tokens。TensorRT-LLM则是一个专门用于编译和优化大语言模型推理的综合程序库，可加快NVIDIA GPU上最新大语言模型的推理性能。

根据苹果的报道文章，因为ReDrafter依赖于以前应用程序中从未使用过的运算符，NVIDIA为了实现ReDrafter集成则在TensorRT-LLM中，还为TensorRT-LLM添加了新的运算符和公开了现有的运算符，目前使用NVIDIA GPU的ML（机器学习）开发人员现在可以轻松受益于ReDrafter的加速效果。同时苹果还声称在基准测试中，在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架，其每秒生成Tokens性能最高可提升了2.7倍。

文章最后苹果提道，目前AI大语言模型（LLM）已越来越多地应用于支持生产的应用程序当中，因此提高推理效率既可以降低企业的计算成本，又可降低用户延迟。不过有意思的是目前苹果一直避免在Apple Intelligence服务器中使用NVIDIA GPU，据悉目前这些服务器仍使用M2 Ultra芯片，且计划在未来使用M4 Ultra芯片，但根据上述事件我们也可以发现，为了实现更强的LLM文本生成性能，苹果及其工程师团队也并不避讳与NVIDIA团队合作。