中金 | AI十年展望（二十）：细数2024大模型底层变化，推理优化、工程为王|推理_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

相比于2023年的参数量快速扩张，2024年以来大模型参数收敛、云侧和端侧模型参数量分化，模型迭代动力更多源于大模型应用落地、端侧部署的需求。基于此背景，推理性能优化、工程化改进均成为模型性能提升和成本降低的重要抓手。本文概览当前大模型科研领域2024年的主要方向，旨在为大模型技术发展趋势、应用落地节奏研判提供底层视角支持。

路径探索：以强化学习优化推理的Q-STaR。2024年3月，斯坦福研究团队提出自学推理者语言模型Quiet-STaR，技术上以强化学习的方法优化“显式中间推理”，提供内心独白式的自我反思机制，第一性原理视角模仿人脑的推理方式，提升推理性能并兼顾泛化能力。基于Mistral 7B模型进行评估，Quiet-STaR调整后的语言模型在零样本准确率大幅提升。

路径突破：原生端到端的海外探索与国内跟进。2023年12月至今，从Google Gemini到OpenAI GPT-4o，海外主流模型已从基于语言模型为主干的跨模态向端到端多模态切换，其技术实质是从语音切入端到端大模型，将语音为主的模态离散化为对应token直接训练和推理，保留多模态信息且降低时延。

算法创新：探索DeepSeek推理成本下降背后的算法创新。2024年为应用推理主导之年，DeepSeek背靠量化私募幻方，以MLA多头潜在注意力和DeepSeekMoE算法创新，带来推理成本大幅下降。降价举措引发大模型多家厂商的降价潮，应用推广进入价格可及区间。

推理优化：从Apple模型进展看端侧产业趋势。Apple为端侧部署的风向标，细数Apple的科研成果，主要有三大方向，囊括基模型、内存和剪枝技巧：1）Apple Intelligence的模型基座AFM；2）LLM-in-a-flash基于闪存运行端侧模型；3）Apple和Meta合作的LazyLLM动态剪枝。

工程改进：细节铸就性能差异。1）以Mooncake为例的预填充与解码阶段架构分离；2）合成数据是后训练阶段实现性能突破的关键，通过强化学习+自对弈合成后训练数据，将数据驱动向推理计算密集型演进。Meta、英伟达、智谱、商汤已采用思维链或强化学习方式进行合成数据探索。

风险

AI技术迭代不及预期；AI商业化落地节奏不及预期。

开篇：应用导向、以终为始，细说大模型底层变化

2024年大模型新方向，参数扩张到推理优化、工程改进

2024年，大模型技术快速演进，相比于2023年的参数量快速扩张，2024年以来，大模型参数收敛、云侧和端侧模型参数量分化，模型迭代动力更多源于大模型应用落地、端侧部署的需求。基于此背景，推理性能优化、工程化改进均成为模型性能提升和成本降低的重要抓手。

图表1：大模型产业趋势：参数收敛、云端分化、后训练及工程化经验为王

资料来源：OpenCompass榜单，面壁智能官方公众号，中金公司研究部

本文概览当前大模型科研领域2024年的主要方向，旨在为大模型技术发展趋势、应用落地节奏研判提供底层视角的支持。主要探讨内容包括：Q-STaR路径探索、原生端到端路径突破、以DeepSeek为代表的算法创新引领降本浪潮、Apple在端侧部署推理优化，并介绍以Mooncake为例的集群架构优化思路和主流厂商的合成数据探索。

► 路径探索：以强化学习优化推理的Q-STaR。2024年3月，斯坦福研究团队提出自学推理者语言模型Quiet-STaR，技术上以强化学习的方法优化“显式中间推理”，提供内心独白式的自我反思机制，第一性原理视角模仿人脑的推理方式，提升推理性能并兼顾泛化能力。性能视角，基于Mistral 7B模型进行评估，Quiet-STaR调整后的语言模型在零样本（zero-shot）准确率大幅提升，对于复杂推理过程的困惑度（perplexity）有所改善，推理能力随训练步骤提升。

► 路径突破：原生端到端的海外探索与国内跟进。2023年12月至今，从Google Gemini到OpenAI GPT-4o，海外主流模型已从基于语言模型为主干的跨模态向端到端多模态切换，效果上得以实现与人类相近的自然语言交互能力，“读懂”人类语音内容和情绪并做出反馈。其技术实质是从语音切入端到端大模型，将语音为主的模态离散化为对应token直接训练和推理，不缺失原模态信息且降低时延。国内原生端到端多模态路径选择以商汤、Minimax为代表，智谱、科大讯飞也推出对标GPT-4o的应用。

► 算法创新：探索DeepSeek推理成本下降背后的算法创新。2024年为应用推理主导之年，DeepSeek背靠量化私募幻方，以MLA多头潜在注意力和DeepSeekMoE算法创新，分别实现降低推理阶段内存需求、实现专家隔离和精准调用，附加工程化层均衡优化资源分配，带来推理成本大幅下降。据公司公开访谈，DeepSeek在架构创新后将定价设置为GPT-4-Turbo的约1%水平，且基于该价格设定仍能实现盈利，该降价举措引发大模型多家厂商的降价潮，应用推广进入价格可及区间。

► 推理优化：从Apple模型进展看端侧产业趋势。Apple为端侧部署的风向标，2024年6月苹果开发者大会发布Apple Intelligence系统，实现跨App的操作及屏幕元素解析的能力。细数Apple的科研成果，主要有三大方向：1）AFM为Apple Intelligence的模型基座，包括3B参数的端侧语言模型AFM-On-device和服务器端模型AFM-server，Siri得以从顶层整合AI能力实现跨应用调度。2）苹果提出LLM-in-a-flash，基于闪存运行端侧模型，推理速度在GPU提效20-25倍。3）Apple和Meta合作LazyLLM动态剪枝，在尽量保持模型精度的背景下，推理环节中非常重要的预填充速度大幅提升，提升推理效率。

► 工程改进：1）以Mooncake为例的预填充与解码阶段架构分离、服务器分别支持。Mooncake构造预填充池提升KV-Cache复用率，减少预填充计算量。针对集群过载的场景，Mooncake执行“预测+早拒绝”的方案，避免集群无用功和平滑吞吐量波动。2）合成数据是后训练阶段实现性能突破的关键，通过强化学习+自对弈合成后训练数据，将数据驱动向推理计算密集型演进。合成数据的工程化部分，主流厂商均未披露技术细节，Meta、英伟达、智谱、商汤已采用思维链或强化学习方式进行合成数据探索。据商汤日日新大模型发布会，公司模型性能提升背后的主要驱动力为数据质量提升、合成数据的加入。

路径探索：大模型强化学习推理新路径

强化学习泛化推理能力：首个自学中间推理者语言模型Quiet-STaR

2024年3月14日，斯坦福研究团队发布了Quiet-STaR模型，利用强化学习优化中间推理过程，以更通用和可扩展的方式学习推理，具备“生成-预测-优化”功能，并在7B参数模型上表现亮眼，展示了构建更强大且适应性更强的语言模型的潜力。

前身：STaR迭代自举显式中间推理，无需依赖大规模人工标注数据集

Quiet-STaR基于斯坦福大学2022年研究发布的STaR语言模型构建，采用自我学习和迭代生成高质量中间推理数据集（rationales）的方法来提升模型性能。STaR通过少量示例引导大模型生成和微调rationales，并使用合理化技术为错误推理提供正确答案以改进反向推理。在数学算术和常识推理领域，STaR方法将少量few-shot prompts转化为大规模数据集，效果与30倍更大的最先进模型相当。其“显式中间推理”技术模仿人类推理，展示和修正模型的思考过程，提升了模型在复杂任务中的逻辑推理表现。

技术维度：Quiet-STaR引入强化学习下的内部中间推理，泛化能力增强

Quiet-STaR的技术架构包括并行原理生成（Think）、混合原理基础预测（Talk）和优化原理生成（Learn）三大步骤。从中间推理角度看，不同于STaR通过prompt明确生成推理步骤，Quiet-STaR在模型内部每个标记处并行生成推理过程，实现了静默建模和内部思考。（1）并行原理生成在每个标记处生成rationale，为优化最优路径提供候选项，并嵌入标记作为学习元标记；（2）混合原理基础预测将未来文本的有无rationale预测混合，结合MLP “混合头”输出的权重，减轻思维模式偏移；（3）优化原理生成使用强化学习，通过扩展教师思路优化，使模型更多依赖后续语义内容而非具体词汇。

图表2：Quiet-STaR模型的技术架构

资料来源：Zelikman E, Harik G, Shao Y, et al. Quiet-star: Language models can teach themselves to think before speaking[J]. arXiv preprint arXiv:2403.09629, 2024.，中金公司研究部

性能评估维度：Quiet-STaR无需微调，持续思考训练可进一步提升性能

使用Mistral 7B小模型评估Quiet-STaR显示性能提升：1）在数学推理和常识推理任务中，模型的零样本准确率显著提高；2）在处理复杂文本时，模型对困难标记的困惑度有所改善，中间推理提升了理解和预测能力；3）随着思考标记数量和训练步骤的增加，模型准确率普遍上升，表明更多推理步骤和持续训练有助于增强推理能力。

展望：Quiet-STaR为未来思维集成创造可能，在更先进大模型上应用尚缺

Quiet-STaR提高了下游推理性能，为未来潜在的思维集成与标记预测改进带来可能，但其目前仍存在局限性：尚未在从头训练的模型上测试，仅应用于7B小模型，且无法动态预测推理生成或结束时机。作为强化学习PRM（Process reward model）的尝试，Quiet-STaR用数值化指标监督推理过程，与Google DeepMind更进一步的Generative Verifier其文字结合数值的评估方法一同为类似路径的发展提供了启示。

强化学习垂直推理能力：数学、代码领域判定标准明确，可验证提升性高

数学领域：形式化语言Lean准确可验证，大模型+符号推理提升路径明晰

数学领域具有形式化逻辑、符号系统的严谨性，大语言模型通过将形式化语言翻译Lean加入math proof，可明确提升强化学习reward model。2024年7月的IMO数学竞赛中，谷歌Deepmind提出的Alphaproof + AlphaGeometry 2方案成功取得银牌，前者将数学问题自然语言翻译为形式化语言Lean以验证证明，后者结合大模型与符号归纳引擎进行解题和逻辑推理。

代码领域：用LLM对LLM自行代码审查验证，高效反馈

在代码领域，AI能通过compiler/interpreter自验证并更正错误，强化学习大模型的可验证性同样可观。2024年6月，OpenAI宣布其内部训练了CriticGPT作为post-training的AI code verifier，使用GPT4进行自我代码审查。此前，主要采用RLHF（Reinforcement Learning from Human Feedback）方法，通过人类反馈持续优化模型。但随着大模型推理和表现的提升，错误变得难以察觉，使RLHF任务更具挑战。为此，团队将CriticGPT整合进RLHF流程，实现LLM对LLM的自我验证，为高级AI系统的评估输出奠定了基础。

CriticGPT采用类似Q-star的“强制采样束搜索”（FSBS）推理技术。训练流程包括三步：首先，人工标注员在ChatGPT生成的代码中植入微妙的bug；接着撰写这些bug的评论；最后，利用这些数据训练CriticGPT识别代码中的问题。FSBS技术生成多个评论片段，通过奖励模型评分选择，平衡全面性和准确性，实现“可扩展监督”，使得弱模型能够监督更强模型的训练。

路径突破：原生端到端多模态实践

端到端深度学习模型通过直接从原始数据中学习复杂任务的解决方案，显著简化了机器学习流程，增强了处理速度、计算效率、准确性和灵活性，展示了在自动驾驶、语音识别、自然语言处理等领域的广泛应用潜力，但同时也因其“黑箱”特性在解释性和安全性方面存在不足。

图表3：Gemini模型架构

资料来源：Team, Gemini, et al. "Gemini: a family of highly capable multimodal models." arXiv preprint arXiv:2312.11805 (2023).，中金公司研究部

Gemini：通用智能时代的端到端多模态实践

Gemini模型是Google DeepMind于2023年推出的首个原生多模态大模型系列，包括Ultra、Pro和Nano三个版本，基于增强的Transformer解码器架构，具备出色的跨模态推理能力和长上下文处理效率。Gemini Nano版本通过模型蒸馏和4-bit量化优化，适用于低内存和高内存设备，在智能手机等设备上高效运行，多模态任务本地完成，提升数据隐私和处理效率。在训练方法上，Gemini从预训练阶段起无缝结合文本、图像、音频和视频数据，并在微调时加入额外多模态数据，提升多模态任务表现的同时不影响纯文本任务质量，具备跨模态推理能力，广泛应用于教育、医疗、金融等领域。通过稀疏专家模型（MoE）架构和训练策略升级，Gemini 1.5在长文本等任务上显著提升，缩短训练时间，减少计算资源和推理延迟，超越了初代版本。在多模态训练方面，Gemini 1.5结合大规模多模态数据集和人类偏好数据进行训练，使用TPUv4加速器分布式训练，将上下文窗口扩展至1,000万token，显著增强整合和推理能力，尤其在长文档问答、视频分析和自动语音识别等复杂跨模态任务中表现出色。

GPT-4o：端到端助力实现低延时+情感交互

GPT-4o作为原生多模态架构模型，具备低延时和情感交互优势，直接从音频输入到音频输出，减少了传统语音AI助手的延迟，实现了接近实时的响应速度，平均延迟仅为320毫秒。相比于GPT-4Turbo，GPT-4o处理速度快了两倍，成本降低了50%，这得益于其优化的标记器，词汇量增加到200k，标记数量减少1.1至4.4倍，显著提升了效率和成本效益，使其更具商业吸引力。

在性能指标方面，GPT-4o在多个基准测试中表现优异，在MMLU和HumanEval上的准确率分别达到88.7%和90.2%，显示了其强大的自然语言理解和生成能力。此外，在西欧语言转录任务中，词错率（WER）低于5%，在MMU和DocVQA上的准确率分别达到69.1%和92.8%，进一步证明了其在多模态任务中的高效性。

算法创新：变换模型架构，降低推理成本

DeepSeek-V2：创新MLA和Sparse结构，成本下降导向API价格大幅下调

DeepSeek V1和V2通过精确的超参数选择、创新的数据分配和经济高效的模型设计优化大型语言模型，具备训练经济和推理高效的特点。DeepSeek-V2性能达GPT-4级别，但开源且商用免费，API价格仅为GPT-4-Turbo的百分之一，引发市场降价潮。背靠量化私募幻方，DeepSeek拥有万张A100芯片丰富算力资源，其创始人梁文锋强调公司追求“原创式创新”，大模型降价是普惠AI时代的战略选择，而非抢占用户的策略。

DeepSeek-V1：Scaling Law观点为后续优质高效训练奠基

DeepSeek团队在V1版本中提出了独特的Scaling Law，优化了大型语言模型的架构设计，通过增加网络深度而非宽度，提高了模型处理能力和效率，同时控制参数数量。在数据层面，团队发现高质量数据集对训练效果至关重要，有助于更有效地利用计算资源。通过研究不同计算预算下的超参数配置，DeepSeek发现最优参数选择存在细微差异，提示进一步研究以确保最佳性能。此外，团队采用IsoFLOP曲线优化模型和数据的规模分配，精确平衡模型大小和数据量，降低训练成本，提高效率。

算法层面：DeepSeek-V2创新设计注意模块、前馈网络架构，支持经济训练与高效推理

DeepSeek-V2在保持基于Transformer架构的基础上，通过创新的多头潜在注意力（MLA）和深度定制的稀疏专家模型（DeepSeekMoE）提升了训练经济效益和推理效率。（1）MLA采用低秩键值联合压缩技术优化多头注意力机制，减少长序列处理中显存需求，提高推理速度并降低成本；（2）DeepSeekMoE架构通过专家分割和隔离技术，仅激活少量专家应对特定任务，减少无用计算和冗余，进一步优化计算资源使用。

图表4：DeepSeek-V2的两大创新模型架构

资料来源：https://github.com/deepseek-ai/DeepSeek-V2.，中金公司研究部

工程层面：DeepSeek-V2均衡优化资源分配，提高训练效率

DeepSeek-V2通过高效的HAI-LLM框架和多种并行技术，实现了资源的高效分配和利用。（1）框架支持16-way流水线并行和8-way专家并行，优化模型训练过程，提升吞吐量并均衡计算负载，同时采用ZeRO-1数据并行方案减少内存和传输开销；（2）资源感知专家负载均衡方法通过模型ensemble结构和优化损失函数，确保专家模块间的资源均衡。自定义CUDA内核进一步加快了通信和计算，显著提升了训练效率。

性能层面：新架构下，DeepSeek-V2综合能力位居榜单前列

在目前大模型主流榜单中，DeepSeek-V2中英文综合能力、数学推理、编程编码等能力均表现出色。（1）中文综合能力（AlignBench）在开源模型中最强，与GPT-4-Turbo和文心4.0等闭源模型齐名；（2）英文综合能力（MT-Bench）与LLaMA3-70B处于同一梯队，超过最强的MoE开源模型Mixtral8x22B；（3）在知识、数学、推理、编程等方面也位居前列，并且支持128K上下文的开源模型和API。

成本效率上， DeepSeek-V2的API定价仅为GPT-4 Turbo的约百分之一，大幅降低了大模型使用门槛，实现了价格普惠化，引发智谱AI、火山引擎、阿里云、百度、腾讯等企业相继跟进降价。值得注意的是，火山引擎的豆包通用模型pro-32k定价仅为0.0008元/千tokens，这一价格比市面上同规格模型的定价低99%，真正实现了大模型价格的“厘时代”。这一举措不仅大幅地降低了中小企业的开发成本，也促进了AI技术的普及和应用。从行业层面来看，我们认为DeepSeek的降价策略进一步加速了AI大模型普惠时代的到来。

展望：DeepSeek-V2.5融合增强通用与代码能力，优化对齐人类偏好

2024年9月8日，Deepseek正式发布 DeepSeek-V2.5，结合DeepSeek-V2-Chat-0628的通用对话能力与DeepSeek-Coder-V2 0724的卓越代码处理能力，并更好地对齐了人类偏好，增强了写作能力、指令遵循能力。DeepSeek-V2.5拥有总计2,360亿个参数、210亿个活动参数，是专家模型的混合体。通用能力上，DeepSeek-V2.5在多种中文和英文测试集上的表现超越了先前版本，涵盖创作和问答等能力，增强了用户体验；安全能力上，其进一步明确了安全问题的界限，在增强模型抵御恶意攻击能力的同时，减少了安全策略对正常问题的影响；代码能力上，其在多项代码测试中表现优异，针对常见代码场景进行了优化，提升了插件补全效果和竞品对比评测的胜率。总体来看，在几乎所有基准测试上，DeepSeek-V2.5的得分都优于先前模型，具有大幅提升。

推理优化：端侧部署的AI模型，为应用筑基

Apple Intelligence：能力升级，端侧模型加持隐私保护

苹果的Apple Intelligence系统采用端云结合架构，具备操作系统级整合能力，结合软硬件优化，实现跨App调度，使AI应用更加顺畅。

为了保护用户隐私，Apple Intelligence支持端侧离线运行，Siri可跨App操作，如自动从相册中提取驾驶证信息填写文件，同时根据用户数据学习使用习惯，进一步个性化服务，即使未接入Apple Intelligence的App，Siri也可通过解析屏幕元素获取信息。

苹果AFM[1]：专注于压缩优化和模型安全

AFM是Apple Intelligence的模型基座，分为设备端运行的30亿参数语言模型（AFM-on-device）和更大规模的服务器端模型（AFM-server）。作为苹果生成模型家族的一部分，AFM支持语言和视觉任务，运行在苹果芯片上。应用可通过统一的语义索引和意图检测调用AFM模型，Siri则整合这些AI能力实现跨应用调度，复杂任务通过端云协作交由服务器模型处理。

图表5：Apple Intelligence端云结合架构

注：左侧为设备端，包含设备端模型和封装好的工具接口，应用可以直接通过接口调用设备端模型；右侧为服务器端，设备端模型构建在隐私云上。Apple Intelligence整体运行在苹果自研芯片上

资料来源：Apple Intelligence技术报告，中金公司研究部

AFM模型通过创新的模型量化和搭载适配器的结构，平衡了性能和轻便化。设备端模型经过4比特量化后，减少了模型大小和推理成本，但可能损失精度。为此，AFM使用LoRA适配器恢复量化模型的精度，使其接近未量化模型的表现。适配器经过专门训练，参数量小、开发成本低，可动态切换以应对不同任务，苹果还将开放平台供用户开发特定任务的适配器。这种结合方案使AFM设备端模型在性能和轻便化之间取得有效平衡。

为确保模型安全，AFM在训练中遵循苹果提出的安全分类法则，包含12个主要类别和51个子类别，严格控制潜在风险，特别针对自我伤害和非法内容等高风险类别。训练数据政策排除用户数据并进行法律审查，安全过滤减少有害内容。通过监督微调和强化学习，后训练阶段确保模型与政策和价值观对齐。苹果还实施红队测试，利用模型逃逸和提示注入等攻击手段，发现并改进潜在漏洞，进一步提升模型安全性。

苹果LLM-in-a-flash让闪存也能流畅运行大模型

LLM-in-a-flash通过结合闪存特性，利用滑动窗口、提前预测和行列捆绑存储等优化措施，使得大模型可以在闪存中流畅运行。虽然端侧设备的DRAM有限，难以存放整个模型，但闪存空间较大，研究人员通过优化加载参数的过程，克服了闪存带宽和寻址性能的限制，实现了大模型在闪存中的高效推理。

通过“滑动窗口”和“提前预测”策略，LLM-in-a-flash实现了参数加载和计算的流水线式运行，降低了推理时延。由于DRAM容量不足无法存储全部参数，模型需在计算过程中等待数据从闪存加载，这会导致速度变慢。滑动窗口策略仅加载小部分数据进入显存并与计算同步，减少等待时间。同时，低秩预测器预测Transformer层中前馈神经网络的稀疏参数，仅加载非零值，进一步减轻传输压力。

“行列捆绑”技术利用闪存的顺序访问速度优势，通过将矩阵的行和列连续存放，增大传输块大小，加速闪存读取。由于闪存顺序读取速度快于随机读取，LLM-in-a-flash在存放模型参数时采用“行列捆绑”方式，适配深度学习中的矩阵运算特性，从而提升闪存的读取传输效率。

在LLM-in-a-flash的优化下，大模型推理的I/O时延降低、可运行的模型规模也得到提升。相较于传统的加载方法，LLM-in-a-flash实现了运行尺寸是可用DRAM容量两倍的模型，同时在CPU和GPU上分别实现了4-5倍和20-25倍的推理速度提升。

苹果、Meta合作LazyLLM预填充动态剪枝，让模型推理输出更快

在模型推理时，预填充阶段是计算瓶颈，加速预填充是优化模型推理使用体验的关键一环。在预填充时，所有提示token需通过Transformer层生成KV-Cache，然后再解码生成输出。常用的性能指标是第一个token的时间（TTFT），TTFT越短，预填充延迟越低，用户体验越好。由于Transformer计算量与提示token长度呈平方关系，长提示词会显著增加TTFT。

预填充阶段的输入token存在冗余，研究人员提出“动态剪枝”策略以减少计算量。仅少部分提示token在预填充阶段是有用的[2]，因此TTFT存在较大的优化空间，许多注意力值很低的token可被剪枝，后续层无需再计算这些不必要的token，从而显著节省计算资源。剪枝前的计算结果存储在辅助缓存中，若后续需要用到被剪枝的token，可直接从缓存中调用，确保每个token最多只计算一次，提高了效率。

采用LazyLLM动态剪枝后，模型预填充速度显著提升，精度仅有轻微下降。研究人员针对5个不同的任务进行测试，对比其他剪枝算法，LazyLLM的精度下降最小，TTFT加速比例最大。实验结果表明，LazyLLM有效减少预填充阶段的计算量，缓解计算瓶颈问题，显著改善模型推理的使用体验。

工程改进：细节决定性能差异

Mooncake & Splitwise：企业级服务器优化集群架构，提升集群运行效率

大模型推理过程分为预填充和解码两个阶段，提升企业级推理集群性能的关键在于优化集群吞吐量、降低TTFT和TBT。由于预填充阶段的计算瓶颈和解码阶段的内存瓶颈不同，传统集群将这两阶段在同一机器上执行，导致利用率不高。如今，预填充与解码分离架构成为主流，分别由不同机器执行，以提高集群效率。2024年，Moonshot的Mooncake和微软的Splitwise都采用了这一架构，通过单独调度和优化预填充和解码过程，提升了整体性能。

Mooncake通过构建预填充池实现KV-Cache复用，减轻了预填充集群的计算压力。每台机器都有一个KV-Cache池，缓存常用的KV-Cache，全局调度器将请求匹配给复用率高的机器，减少计算量。池内缓存动态调整，并行计算长提示词，异步传输KV-Cache到解码机器，节省等待时间。针对集群过载，Mooncake设计了“预测+早拒绝”方案，减少不必要的计算，提高过载场景下的吞吐量。

Splitwise采用序列化传输降低KV-Cache传输时延。在预填充和解码集群分离的架构下，通过一边计算一边传输的方式，将KV-Cache从预填充集群传输到解码集群，减少了解码阶段的等待时间。

合成数据：大模型进化的前进之路

Scaling Law遇到“数据墙”，合成数据是少有的解决方案

Scaling Law表明，训练更大的模型需要更多数据，但互联网数据增长速度已无法跟上模型参数增长速度。Epoch AI在2024年预测，互联网文本数据将在2028年耗尽，获取更多数据成为大模型训练的关键问题。目前的解决方案包括使用未充分清洗的数据或通过少量数据合成大量训练数据。由于数据质量比数量更重要，合成数据可能是应对“数据墙”问题的主要途径。

合成数据应用广泛，预训练和后训练都离不开合成数据

利用虚拟引擎合成的数据可用于多模态大模型的预训练，例如视频生成模型Sora使用合成视频数据作为训练集，同时通过转换模型生成多模态数据，丰富数据来源。现实中获取高质量真实数据成本高，合成数据尤其对罕见情况的数据补充很有价值。

合成数据在后训练阶段也是关键，帮助大模型对齐人类偏好和特定领域需求。OpenAI首席架构师John Schulman表示，GPT-4的进步主要归功于后训练阶段，但该阶段仍有改进空间，合成数据技术有助于降低成本，成为公司探索的方向。

强化学习+逐步验证，合成逻辑链数据

LLM通过强化学习和自对弈合成后训练数据，推动Scaling Law从数据密集型向推理计算密集型转变。类似AlphaGo Zero自我对弈学习，LLM在自对弈中积累经验优化能力。随着数据获取边际效应减弱，合成数据成为提升模型的新途径，大模型训练逐渐依赖计算密集型推理。

强化学习过程验证比结果验证更重要，从自对弈中提炼出优质逻辑链数据。OpenAI在2023年的《Verify Step by Step》[3]论文中指出，逐步监督和反馈每个决策步骤确保其符合最优策略，并能精确定位错误，提高模型对复杂逻辑链的理解和数据质量。逐步验证在多步骤逻辑推理任务中效果显著，如复杂数学问题求解，能有效引导模型沿正确路径前进，避免浪费计算资源，这也是优质后训练数据常以逻辑链形式存在的原因。

自对弈合成数据仍需人工介入，用户数据可推动数据飞轮的正反馈。自对弈通过大量随机尝试提炼优质训练数据，但评判这些数据仍需外界反馈。在标准化任务（如Coding和Math）上，自对弈对模型提升效果显著；但对话、理解等难以量化的任务仍依赖人类标注。用户使用大模型的记录是宝贵数据源，但须警惕不良数据注入，以免影响模型安全。

国内外人工智能公司在合成数据上积极探索

Meta、英伟达、智谱清言、商汤科技等公司纷纷发力。在2024年，Meta在Llama3.1的训练中广泛使用合成数据来提升特定任务能力，包括代码、长上下文和工具调用等任务。合成数据生成编程问题、长文档问答对和模拟工具调用场景，以优化模型的表现。英伟达的Nemotron-4-340B-Base同样使用大量合成数据，在后训练阶段，98%的微调数据来自合成流程，提升对话、指令跟随和人类偏好的对齐能力。国内的智谱清言通过合成长上下文数据，解决训练数据稀缺的问题，为GLM模型构建更长的SFT数据。商汤科技在日日新5.0中利用合成逻辑链数据，增强大模型推理能力，通过多轮迭代和专家共识，逐步提升模型的自我反思和进化能力。

利用合成数据训练大模型存在模型崩溃、数据泄露等风险

重复使用合成数据训练模型可能会导致模型崩溃。2024年7月，Nature刊登的论文指出，不加选择地使用模型生成的数据进行训练会导致不可逆缺陷，甚至模型崩溃。随着AI生成内容在互联网上增多，训练数据的递归使用将加剧这一问题。未来，模型训练可能需要先判别并过滤合成数据，以避免合成数据滥用带来的风险，这仍是一个需要关注的重要课题。

合成数据常涉及隐私领域，尽管其为一种脱敏手段，但仍存在信息泄露风险。2023年11月，Google DeepMind通过提取攻击使ChatGPT泄露了包含个人隐私的训练数据。虽然合成数据在一定程度上降低了隐私泄露的风险，但部分合成数据源于隐私数据，泄露风险依然存在。此外，用私有技术方案和数据生成的合成数据也应受到版权保护。

风险因素

AI技术迭代不及预期。当前AI模型技术正处于快速迭代期，如相关模型厂商未能按照预期实现技术的迭代和创新，可能会在技术竞争中处于不利地位。

AI商业化落地节奏不及预期。目前AI生成模型的商业化落地仍处于早期，未来商业落地仍存在不确定性。

[1]Apple Foundation Models的缩写，意为苹果基础模型

[2]Fu, Qichen, et al. "LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference." arXiv preprint arXiv:2407.14057 (2024).

[3]Lightman, Hunter, et al. "Let's Verify Step by Step." arXiv, 31 May 2023, arxiv.org/abs/2305.20050.

本文摘自：2024年9月11日已经发布的《人工智能十年展望（二十）：细数2024大模型底层变化，推理优化、工程为王》

于钟海分析员 SAC 执证编号：S0080518070011 SFC CE Ref：BOP246

魏鹳霏分析员 SAC 执证编号：S0080523060019 SFC CE Ref：BSX734

王倩蕾联系人 SAC 执证编号：S0080122090111

赵丽萍分析员 SAC 执证编号：S0080516060004 SFC CE Ref：BEH709

王之昊分析员 SAC 执证编号：S0080522050001 SFC CE Ref：BSS168