iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍

iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍
2025年08月09日 08:16 IT之家

IT之家 8 月 9 日消息,科技媒体 9to5Mac 昨日(8 月 8 日)发布博文,报道称苹果在最新研究中,提出了“多 token 预测”(MTP)技术,不牺牲输出质量的情况下,可将大语言模型响应速度提升 2~3 倍,特定场景下最高可达 5 倍。

IT之家援引博文介绍,传统大语言模型(LLM)采用自回归方式生成文本,逐个输出 token,为保证连贯性,每一步都依赖前序内容。

例如生成“The cat is black”时,模型需在输出“is”后,基于上下文和训练经验,从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制虽准确,但速度受限,尤其在移动设备上影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现,尽管模型仅被训练为预测下一个词,其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出“多 token 预测”(MTP)框架,支持模型一次生成多个词。例如输入“The cat is ”,模型可直接输出“very fluffy”,大幅提升生成效率。

该技术核心在于引入“掩码”(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一“推测-验证”机制在提速的同时,保留了传统方法的准确性,实现速度与质量的平衡。

实验基于开源模型 Tulu3-8B 进行,苹果训练其最多推测 8 个后续 token。结果显示,在问答和对话等通用任务中,响应速度平均提升 2–3 倍;在代码生成、数学推理等结构化场景中,提速可达 5 倍。

研究人员强调,性能提升未以牺牲生成质量为代价,关键在于采用了“门控 LoRA 适配”技术,动态调节参数,仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算,MTP 可在 iPhone、Mac 等本地设备实现更快响应,降低延迟与能耗。

虽然目前仍处于研究阶段,但其兼容现有模型架构的特点,使其具备较强落地潜力,未来或可集成至 Siri、Apple Intelligence 等产品中,提升用户交互体验。

AI苹果iPhone
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片