边缘智能的新时代：端侧大模型的研究进展综述|AI|边缘智能_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Jiajun Xu : Meta AI科学家，专注大模型和智能眼镜开发。南加州大学博士，Linkedin Top AI Voice，畅销书作家。他的AI科普绘本AI for Babies (“宝宝的人工智能”系列，双语版刚在国内出版) 畅销硅谷，曾获得亚马逊儿童软件、编程新书榜榜首。
Zhiyuan Li : Nexa AI CTO，斯坦福校友，前斯坦福CEO协会主席, Octopus系列论文作者。他在 Google Labs 和 Amazon Lab126 拥有丰富的端侧 AI 模型训练、部署和产品开发经验。
Wei Chen : Nexa AI CEO，斯坦福博士，前斯坦福CEO协会主席。他深耕人工智能领域，先后发表多篇Octopus系列模型论文，其中Octopus-V2模型曾在huggingface全球60万模型中位列第二，并在Google 2024 IO上被feature。
Qun Wang : 旧金山州立大学计算机系助理教授，曾在劳伦斯伯克利国家重点实验室做博后，犹他州立大学博士。研究方向主要集中在下一代通信网络中边缘计算的能效和安全优化，以及边缘智能系统的通信和训练加速。先后在IEEE发布多篇论文。
Xin Gao, Qi Cai : 北德州大学博士生
Ziyuan Ling : Nexa AI 初创设计师，伯克利设计系研究生

1 序言：边缘智能的新纪元

在人工智能的飞速发展中，大型语言模型（LLMs）以其在自然语言处理（NLP）领域的革命性突破，引领着技术进步的新浪潮。自 2017 年 Transformer 架构的诞生以来，我们见证了从 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起，它们不仅在技术层面上不断刷新我们对机器理解与生成人类语言能力的认知，更在实际应用中展现出巨大的潜力和价值。

然而，这些模型传统上主要部署在云端服务器上，这种做法虽然保证了强大的计算力支持，却也带来了一系列挑战：网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了 LLMs 的广泛应用和用户的即时体验。正因如此，将 LLMs 部署在端侧设备上的探索应运而生，它不仅能够提供更快的响应速度，还能在保护用户隐私的同时，实现个性化的用户体验。

随着技术的不断进步，边缘 AI 市场的全球规模正以惊人的速度增长。预计从 2022 年的 152 亿美元增长到 2032 年的 1436 亿美元，这一近十倍的增长不仅反映了市场对边缘 AI 解决方案的迫切需求，也预示着在制造、汽车、消费品等多个行业中，边缘 AI 技术将发挥越来越重要的作用。

图 1：2022 年至 2032 年按终端用户划分的端侧 AI 全球市场规模（单位：十亿美元）。

在这样的背景下，本综述文章深入探讨了在边缘设备上部署 LLM 的策略和进展。我们将详细分析模型压缩技术、能效计算策略以及轻量级模型架构的创新设计。此外，文章还将讨论硬件加速策略、边缘 - 云协同部署方法，并重点介绍在边缘场景中有效利用 LLM 的部署策略，以及这些技术在行业中的应用实例和带来的益处。

论文标题：On-Device Language Models: A Comprehensive Review
论文链接：https://arxiv.org/abs/2409.00088
相关链接：LLMsOnDevice.com

通过本综述，我们希望为读者提供一份关于如何在端侧设备上部署和优化 LLMs 的全面指南，同时指出当前研究的方向和面临的挑战，为未来的技术发展提供参考和启示。我们相信，通过跨学科的共同努力，我们能够实现智能计算的普及。

图 2：本篇综述结构

2 技术进展：探索端侧 LLMs 部署

在人工智能的浪潮中，端侧大型语言模型（On-Device LLMs）正以其迅猛的发展速度和广泛的应用前景，成为技术革新的新宠。自 2023 年起，随着参数量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌现，我们见证了 LLMs 在边缘设备上运行的可行性和重要性。这些模型不仅在性能上取得了长足的进步，更通过混合专家、量化和压缩等技术，保持了参数量的优化，为边缘设备的多样化应用场景提供了强大支持。

进入 2024 年，新模型的推出愈发密集，如图 3 所示，Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等，它们不仅在文本处理上有所增强，更在多模态能力上展现了新的可能性，如结合文本与图像等多模态输入，以适应更复杂的用户交互需求。

图 3：on-device LLM 的演进，展示了自 2023 年以来的重要模型和发展里程碑。

然而，要在资源受限的设备上部署这些强大的模型，我们必须面对内存和计算能力的双重挑战。研究者们通过量化感知缩放、稀疏更新等创新方法，有效解决了这些问题，使得大型模型即便在参数量巨大的情况下，也能在设备端高效运行。

相较于完全依赖云端的 LLM 服务，端侧推理的优势显而易见。它不仅减少了数据传输的延迟，更保护了用户数据的隐私安全。图 4 的投票分布显示，大多数参与者更倾向于边缘云协作的架构，对现有仅云端的解决方案并不满意。端侧推理的低延迟特性，尤其适用于需要实时响应的应用场景，如 Google 的 Gemini Nano 支持的 TalkBack 功能，即便在完全离线的情况下也能正常工作。

图 4：用户对不同 LLM 部署方式的偏好情况

衡量端侧 LLMs 性能的指标包括延迟、推理速度、内存消耗等。这些指标直接关系到模型在边缘设备上的实际运行效果，以及用户的使用体验。随着技术的不断成熟，我们期待这些性能指标能得到进一步的优化，使得端侧大语言模型能在更多场景下发挥其潜力。

3 架构创新：优化边缘设备的性能

在智能手机和边缘设备上部署大型语言模型（LLMs）正成为人工智能领域的新挑战。面对有限的内存和计算能力，研究者们提出了一系列创新的架构设计原则和方法，旨在实现资源的高效利用和性能的最大化。架构创新变得尤为关键，其中包括参数共享、模块化设计以及紧凑的表示形式。例如，MobileLLM 通过深度和瘦长的模型结构优化了参数量在十亿以下的模型，而 EdgeShard 框架则通过边缘云协作计算实现了模型的分布式处理，显著降低了延迟并提高了吞吐量。

同时，模型压缩与参数共享技术的应用，如 AWQ 方法和 MobileLLM，不仅减少了模型尺寸，还在保持性能的同时加快了推理速度。这些技术通过保护关键权重和优化模型结构，为 LLMs 在端侧的部署提供了新的可能性。协作和层次化模型方法通过分散计算负载和利用不同能力模型的组合，解决了资源受限设备的部署难题。EdgeShard 和 LLMCad 的研究成果展示了这种方法的有效性，它们通过在多个设备上分配计算任务，提升了 LLMs 的可扩展性和效率。

在内存和计算效率的优化方面，Samsung Electronics 提出的 PIM 和 PNM 技术，以及 MELT 基础设施，都显著提升了内存带宽和容量，同时降低了能耗，为 LLMs 的移动部署铺平了道路。MoE 架构的应用，如 EdgeMoE 和 LocMoE，通过稀疏激活和动态路由，进一步提高了 LLMs 的效率。这些方法通过优化专家网络的选择和路由，减少了模型的内存占用和提高了计算速度。

此外，总体效率和性能提升的研究，如 Any-Precision LLM 和 LCDA 框架，通过提供多精度支持和软硬件协同设计，为 LLMs 在边缘设备上的高效运行提供了新的视角。随着这些创新技术的迅速发展，我们期待在移动设备和边缘设备上享受到与云端相媲美的智能体验，这将为用户带来更加快速、个性化的服务，同时确保数据的安全性和隐私保护。智能边缘计算的未来正变得愈发清晰，它将为人工智能领域带来深远的影响和无限的可能性。

4 模型压缩：平衡性能与效率

在边缘设备上部署大型语言模型（LLMs）时，保持性能的同时提升计算效率尤为关键。本文综述了四种关键的模型压缩技术：量化、剪枝、知识蒸馏和低秩分解，这些方法通过在性能、内存占用和推理速度之间找到平衡，确保了 LLMs 在端侧应用的可行性。

量化是一种通过降低模型权重和激活的精度来减少模型大小的技术。这种方法能够在几乎不损失模型性能的情况下，显著减少模型所需的存储空间和计算资源。后训练量化（PTQ）是一种在模型训练完成后应用的技术，它通过一些先进的补偿策略，如 GPTQ，可以在将模型权重量化到 3 或 4 位的情况下，保持模型的高准确度。而量化感知训练（QAT）则将量化集成到模型的训练过程中，使模型在训练时就适应低精度的约束，从而在量化后保持更高的准确度。

剪枝是另一种通过减少模型复杂性来提升计算效率的方法。结构化剪枝通过移除模型中的整个参数子集，如层、通道或过滤器，来优化硬件性能。无结构化剪枝则在更细的粒度上工作，移除单个权重，提供更高的压缩率。此外，上下文剪枝根据模型的运行上下文动态地移除权重，确保在不同条件下都能保持最优的性能。

知识蒸馏是一种将大型模型的知识迁移到小型模型的技术。黑盒 KD 只使用教师模型的输出进行学习，而白盒 KD 则允许学生模型访问教师模型的内部状态，实现更深入的学习。这种方法可以在不牺牲性能的情况下，显著减少模型的大小和计算需求。

低秩分解是一种将大型矩阵分解为较小矩阵的技术。这种方法利用了矩阵的低秩结构，减少了计算复杂性，同时保持了模型的准确性。Yao 等人的研究将 LRF 与 PTQ 结合，提出了低秩补偿（LoRC），在显著减少模型大小的同时，通过补偿策略保持了模型的准确性。

5 硬件加速：推动端侧 LLMs 的高效运行

硬件加速器在大型语言模型（LLMs）的端侧部署中扮演着至关重要的角色。GPU 和 TPU 等专用硬件提供了强大的计算能力和高内存带宽，它们是训练和加速 LLMs 的重要基础。NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩阵乘法能力，都为基于 Transformer 的模型提供了强有力的支持。同时，FPGA 以其灵活性，通过稀疏矩阵乘法和量化技术，在 Transformer 层的推理任务中展现出高效能，为特定模型架构提供了定制优化的可能。

软硬件协同设计的方法，如量化感知训练和模型压缩，进一步提升了 LLMs 的效率，使得它们能够跨越从高功率服务器到低功率边缘设备的广泛部署。这些技术通过参数共享和先进的内存管理，减少了模型的存储需求，确保了快速且成本效益更高的部署。此外，各种框架如 Llama.cpp、MNN、PowerInfer 等，根据不同的硬件平台和用例需求，提供了优化的部署策略，从而实现从云端到边缘的无缝协作。

在边缘云部署方面，MLC-LLM 和 VLLM 等技术通过支持高效的量化方法和关键内存管理，优化了 LLMs 在边缘设备和云环境中的部署。OpenLLM 等项目通过 BentoML 等工具，实现了开源 LLMs 的快速部署，提供了与 OpenAI 兼容的 API 服务。随着硬件技术的不断进步，如 NVIDIA A100 GPU 和 Google TPU v4，我们看到了端侧 LLMs 性能的显著提升，这些硬件不仅提供了巨大的计算能力，还通过混合精度训练等技术，大幅减少了模型的内存占用并提高了计算效率。

6 实例与应用：端侧 LLMs 的实践探索

端侧语言模型的实例：Gemini Nano 模型通过 Google AI Edge SDK 为移动操作系统提供了一个小型但功能强大的 LLM，它通过 4 位量化部署，提供了一流的性能和低延迟的推理速度。Nexa AI Octopus 系列模型则在边缘设备上运行，以超越 GPT-4 的准确性和延迟，同时减少了 95% 的上下文长度。Apple 的 OpenELM 和 Ferret-v2 模型通过 iOS 集成，提供了类似系统服务的功能扩展。Microsoft 的 Phi 系列，特别是 Phi-3-mini 模型，即使在移动部署中也展现出与大型模型相媲美的性能。此外，MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等开源模型也在各自的领域内展现出卓越的性能。

端侧大语言模型的应用：端侧 LLMs 的应用范围极为广泛，从即时消息生成、实时语言翻译、会议摘要到医疗咨询、科研支持、陪伴机器人、残障人士辅助以及自动驾驶等。例如，Google 的 Gboard 应用利用 Gemini Nano 模型提供基于聊天内容的快速回复建议。在翻译领域，端侧模型能够在离线环境中快速响应，同时保证翻译质量。会议摘要应用通过分析会议内容，实时生成摘要，避免了云模型订阅服务费用和网络延迟问题。在医疗领域，端侧模型能够在本地处理患者数据，保护隐私同时提供紧急情况下的快速响应。

科研支持方面，端侧 LLMs 能够利用特定领域的大量专业数据进行训练，加速科研进展。陪伴机器人和 IoT 设备通过端侧 LLMs 提升了理解自然语言指令的能力。对于视障人士，端侧多模态模型能够将图像转换为文字，提供丰富的图像描述，并支持离线使用。此外，手语识别和翻译项目也利用了端侧模型的低延迟和离线可用性。

自动驾驶领域，结合大规模视觉语言模型的系统正在改善车辆对复杂和长尾场景的理解，提供即时响应并处理动态场景。

图 5 展示了端侧 LLMs 在不同应用领域的表现，从文本生成、翻译、会议摘要、医疗应用、科研支持、伴侣机器人、残障人士辅助到自动驾驶等，端侧 LLMs 正以其智能、响应迅速和个性化的特点，改变我们与技术的互动方式。

7 未来展望：边缘计算的智能转型

图 6：on-device LLM 的未来方向和面临的挑战

在设备上运行的大型语言模型（LLMs）正迅速发展，它们在数据安全、低延迟和个性化 AI 体验方面展现出巨大潜力。然而，要在资源受限的设备上部署这些模型，我们必须克服包括模型压缩、高效推理、安全性和能源效率等一系列挑战。未来的研究将致力于开发新的隐私保护技术，如查询混淆和先进的随机化技术，同时加强风险评估和监控，以确保模型的实用性和数据的安全性。此外，研究者们也在探索适应性边缘 - 云协作，通过智能缓存、请求分析和资源分配算法，优化数据在边缘设备与云服务器间的传输。

多模态和跨模态学习是推动 LLMs 发展的关键方向，它们使模型能够整合并理解多种数据类型，从而提供更丰富的用户体验。研究者们正致力于开发高效的多模态处理技术，以及能够适应不同模态输入的模型架构。同时，资源效率也成为研究的重点，通过模型压缩和执行算法的优化，以及利用模型稀疏性，可以显著降低模型在边缘设备上的能源消耗，这对环境保护具有重要意义。

为了进一步提升 LLMs 的性能，硬件 - 软件的协同设计变得至关重要。未来的研究将探索新的 PIM/PNM 架构，以及针对 AI 特定需求优化的编译器和运行时系统。此外，确保模型的鲁棒性和可靠性也是未来工作的重点，研究者们正在开发方法以检测和减轻模型输出中的偏见和幻觉，特别是在安全关键的应用中。

个性化 AI 体验是设备上 LLMs 的另一大优势，但这也带来了模型持续学习和适应新信息的挑战。未来的研究将集中于实现知识保留和遗忘的可控机制，以及开发持续学习的理论基础和优化策略。通过这些机制，模型能够根据用户交互和本地数据自主学习新技能，并提高现有能力。

8 结语

在设备上部署的大型语言模型（LLMs）正开启智能边缘计算的新篇章，预示着一个个性化、高效的 AI 时代即将到来。这些模型通过强化数据安全、降低延迟，并提供深度个性化的体验，将彻底改变我们与技术的互动。展望未来，随着技术的不断成熟，我们期待一个设备更智能、服务更精准、生活更便捷的新世界。个性化的 AI 将融入日常生活的方方面面，从智能家居到自动驾驶，从虚拟助手到健康监护，它们将以前所未有的方式提升我们的生活品质。随着研究的深入，一个更智能、更可靠、更贴近人心的 AI 未来正向我们招手，让我们满怀期待，迎接这个由 LLMs 引领的创新纪元。

为了进一步促进学术交流和知识共享，我们建立了一个专门的 GitHub 资源库 ——Awesome LLMs on Device。这个资源库不仅收录了本论文的详细内容，还将持续更新，以反映该领域的最新研究成果和技术动态。

诚邀学术界同仁访问我们的 GitHub 资源库，参与到 LLMs 在边缘设备上的研究中来，共同推动智能边缘技术的创新与发展。

Github Repo:https://github.com/NexaAI/Awesome-LLMs-on-device