12月18日,苹果宣布ReDrafter(Recurrent Drafter)技术已集成至TensorRT-LLM。据悉,ReDrafter技术是一种全新的LLM文本生成方法,该技术使用RNN草稿模型,并结合了beam search算法以及dynamic tree attention机制,可以让开源模型最多每步生成3.5个tokens。TensorRT-LLM则是一个专门用于编译和优化大语言模型推理的综合程序库,可加快NVIDIA GPU上最新大语言模型的推理性能。
根据苹果的报道文章,因为ReDrafter依赖于以前应用程序中从未使用过的运算符,NVIDIA为了实现ReDrafter集成则在TensorRT-LLM中,还为TensorRT-LLM添加了新的运算符和公开了现有的运算符,目前使用NVIDIA GPU的ML(机器学习)开发人员现在可以轻松受益于ReDrafter的加速效果。同时苹果还声称在基准测试中,在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架,其每秒生成Tokens性能最高可提升了2.7倍。
文章最后苹果提道,目前AI大语言模型(LLM)已越来越多地应用于支持生产的应用程序当中,因此提高推理效率既可以降低企业的计算成本,又可降低用户延迟。不过有意思的是目前苹果一直避免在Apple Intelligence服务器中使用NVIDIA GPU,据悉目前这些服务器仍使用M2 Ultra芯片,且计划在未来使用M4 Ultra芯片,但根据上述事件我们也可以发现,为了实现更强的LLM文本生成性能,苹果及其工程师团队也并不避讳与NVIDIA团队合作。
海量资讯、精准解读,尽在新浪财经APP
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)