苹果ReDrafter技术已集成至TensorRT-LLM,可提升NVIDIA GPU的推理效率

苹果ReDrafter技术已集成至TensorRT-LLM,可提升NVIDIA GPU的推理效率
2024年12月19日 16:17 网易新闻

12月18日,苹果宣布ReDrafter(Recurrent Drafter)技术已集成至TensorRT-LLM。据悉,ReDrafter技术是一种全新的LLM文本生成方法,该技术使用RNN草稿模型,并结合了beam search算法以及dynamic tree attention机制,可以让开源模型最多每步生成3.5个tokens。TensorRT-LLM则是一个专门用于编译和优化大语言模型推理的综合程序库,可加快NVIDIA GPU上最新大语言模型的推理性能。

根据苹果的报道文章,因为ReDrafter依赖于以前应用程序中从未使用过的运算符,NVIDIA为了实现ReDrafter集成则在TensorRT-LLM中,还为TensorRT-LLM添加了新的运算符和公开了现有的运算符,目前使用NVIDIA GPU的ML(机器学习)开发人员现在可以轻松受益于ReDrafter的加速效果。同时苹果还声称在基准测试中,在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架,其每秒生成Tokens性能最高可提升了2.7倍。

文章最后苹果提道,目前AI大语言模型(LLM)已越来越多地应用于支持生产的应用程序当中,因此提高推理效率既可以降低企业的计算成本,又可降低用户延迟。不过有意思的是目前苹果一直避免在Apple Intelligence服务器中使用NVIDIA GPU,据悉目前这些服务器仍使用M2 Ultra芯片,且计划在未来使用M4 Ultra芯片,但根据上述事件我们也可以发现,为了实现更强的LLM文本生成性能,苹果及其工程师团队也并不避讳与NVIDIA团队合作。

海量资讯、精准解读,尽在新浪财经APP
苹果 gpu 推理 NVIDIA

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-23 黄山谷捷 301581 27.5
  • 12-20 天和磁材 603072 12.3
  • 12-19 国货航 001391 2.3
  • 12-17 方正阀门 920082 3.51
  • 12-13 中力股份 603194 20.32
  • 新浪首页 语音播报 相关新闻 返回顶部