DeepSeek最重要的三篇论文解读_新浪财经

　　来源：硅谷科技评论

　　中国人工智能初创企业DeepSeek（深度求索）正在以惊人的速度改写全球科技竞争格局。其最新推出的推理模型R1不仅性能卓越，与国际领先的OpenAI o1模型平分秋色，更以不到600万美元的训练成本震惊行业，这一数字仅为Meta大模型训练成本的十分之一。这一技术突破不仅在产业界掀起波澜，甚至引发了政治层面的关注。2025年初，美国总统特朗普在一场集会上直言不讳地表示，DeepSeek的崛起为美国产业界敲响了警钟，成为美国科技优势地位面临挑战的最新注脚。

　　DeepSeek的成功并非偶然。过去一年中，该公司连续发布了多篇具有划时代意义的学术论文，奠定了其技术领先地位。硅谷科技评论（SVTR）结合内部访谈和专家反馈，认为在DeepSeek的众多论文中，以下几篇被认为是最重要的，主要因为它们在技术创新和实际应用中有着重大突破：

DeepSeek-R1：通过强化学习提升大型语言模型的推理能力。2025年1月发布，提出了一种使用强化学习而非监督学习的方法，显著提升了语言模型在数学和逻辑推理任务中的表现，开辟了新的研究方向。
DeepSeek-V3：高效的混合专家模型。2024年12月发布，设计了一种高效的混合专家模型，通过激活少量参数实现性能和计算成本的平衡，是大规模模型优化的重要突破。
DeepSeek-LLM：以长期主义扩展开源语言模型。2024年1月发布，从长期主义视角提出开源语言模型发展策略，推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。

　　文末阅读原文或者联系凯瑞（pkcapital2023），获取三篇论文原文。

　　一、DeepSeek-R1：通过强化学习提升大型语言模型的推理能力

　　《DeepSeek-R1： Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》是一篇开创性的论文，专注于通过纯强化学习方法（而非传统的监督学习）来提升大型语言模型的推理能力。研究展示了模型在训练过程中通过强化学习表现出的“顿悟”现象，并显著提升了模型在数学和逻辑推理任务中的性能。以下是论文的详细解读：

　　背景与目标

　　近年来，大型语言模型（LLM）的推理能力成为人工智能研究的重要方向。然而，当前的许多方法依赖监督微调（SFT），这需要大量标注数据。论文提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 两种新型模型，通过大规模强化学习（RL）方法提升推理能力，旨在减少对监督数据的依赖，探索纯强化学习对推理能力的优化潜力。

　　方法

DeepSeek-R1-Zero：基于纯强化学习的推理能力提升

强化学习算法：使用 Group Relative Policy Optimization （GRPO），通过群体奖励优化策略模型。奖励设计包括准确性奖励（评估答案正确性）和格式奖励（引导模型按照指定格式输出推理过程）。
自我演化与“灵光一现”现象：模型通过 RL 自动学习复杂的推理行为，如自我验证和反思。随着训练过程的深入，模型逐步提升了复杂任务的解答能力，并在推理任务上显现突破性的性能提升。
DeepSeek-R1：结合冷启动数据的多阶段训练

冷启动数据的引入：从零开始的 RL 容易导致初期性能不稳定，为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。
推理导向的强化学习：通过多轮 RL，进一步优化模型在数学、编程等推理密集型任务中的表现。
监督微调与拒绝采样：使用 RL 检查点生成额外的推理和非推理任务数据，进一步微调模型。
全场景强化学习：在最终阶段结合多种奖励信号，提升模型的有用性和安全性。
蒸馏：将推理能力传递至小模型。

　　将 DeepSeek-R1 的推理能力通过蒸馏技术传递至 Qwen 和 Llama 系列小型模型。蒸馏后的模型在多个基准任务中超越了部分开源大模型。

　　性能评估

推理任务

在 AIME 2024、MATH-500 等数学任务中，DeepSeek-R1 达到 OpenAI-o1-1217 的性能水平。
在编程任务（如 Codeforces 和 LiveCodeBench）上，表现优于大多数对比模型。
知识任务

在 MMLU 和 GPQA Diamond 等多学科基准测试中，DeepSeek-R1 展现了卓越的知识推理能力。
其中文任务表现（如 C-Eval）显著优于其他开源模型。
生成任务

　　在 AlpacaEval 和 ArenaHard 等开放式生成任务中，DeepSeek-R1 的胜率分别达到 87.6% 和 92.3%，展现了强大的文本生成能力。

　　结论与未来展望

关键发现

通过强化学习，LLM 的推理能力可显著提升，即便无需监督数据。
将推理能力蒸馏到小型模型中可以有效地提高计算效率，同时保持较高的性能。
局限性

语言混合问题：模型在处理多语言任务时可能输出混合语言。
提示敏感性：模型对 few-shot 提示不够鲁棒。
未来方向

增强多语言支持，优化对中文以外语言的推理能力。
研究大规模 RL 在软件工程任务中的应用。

　　二、DeepSeek-V3：高效的混合专家模型

　　《DeepSeek-V3： A Strong Mixture-of-Experts Language Model》是一项关于混合专家（MoE）模型的研究，旨在通过激活少量专家网络实现高效计算，平衡模型性能和算力成本。该模型在多个复杂任务中表现出卓越的能力，同时显著降低了运行成本，为大模型的实际应用提供了新的思路。以下是论文的解读：

　　背景与目标

　　随着大语言模型（LLM）的发展，DeepSeek-AI 团队提出了 DeepSeek-V3，一个拥有 6710 亿参数的混合专家（MoE）模型，每个 token 激活 370 亿参数。DeepSeek-V3 通过高效推理和经济成本的训练方法，旨在推动开源模型能力的极限，同时在性能上与闭源模型（如 GPT-4o 和 Claude-3.5）竞争。

　　核心技术与架构创新

多头潜在注意力（MLA）

使用低秩联合压缩方法减少注意力计算的缓存需求，同时保持多头注意力的性能。
引入旋转位置嵌入（RoPE）提高推理精度。
混合专家架构（DeepSeekMoE）

采用辅助损失优化的专家负载平衡策略，避免因负载不均导致的计算效率降低。
引入“无辅助损失”的负载平衡新方法，通过动态调整路由偏差值，确保训练过程中的负载均衡。
多 Token 预测目标（MTP）

扩展模型在每个位置预测多个未来 token 的能力，提高训练数据效率。
在推理阶段，MTP 模块可被重新用于推测解码，从而加速生成。

　　数据与训练效率

数据与预训练：

使用 14.8 万亿高质量多样化 token 数据进行训练。
预训练过程非常稳定，未发生任何不可恢复的损失激增。
优化训练框架：

设计了 DualPipe 算法，通过前向和反向计算的重叠，显著减少通信开销。
支持 FP8 混合精度训练，结合细粒度量化策略，显著降低内存使用和通信开销。
训练效率极高，每训练万亿 token 仅需 18 万 H800 GPU 小时，总成本约 557.6 万美元。
长上下文扩展：

　　支持最大上下文长度从 32K 扩展至 128K，使模型更适用于长文档处理。

　　后期优化与推理部署

监督微调（SFT）与强化学习（RL）：

通过 SFT 对齐模型输出与人类偏好。
引入自适应奖励模型和相对策略优化（GRPO），提升模型的推理能力。
推理与部署：

在 NVIDIA H800 GPU 集群上部署，结合高效的专家路由和负载均衡策略，实现低延迟的实时服务。
使用冗余专家策略进一步优化推理阶段的负载平衡。

　　性能表现

知识任务：

在 MMLU 和 GPQA 等教育基准上，DeepSeek-V3 超越所有开源模型，并接近 GPT-4o 的性能。
在中文事实性任务中表现尤为突出，领先大部分闭源模型。
代码与数学任务：

在数学基准（如 MATH-500）上实现开源模型的最佳表现。
在编程任务（如 LiveCodeBench）中排名第一，展示了卓越的代码生成能力。
开放式生成任务：

　　在开放式生成任务中，DeepSeek-V3 的胜率显著高于其他开源模型，并接近闭源模型的水平。

　　结论与未来方向

　　DeepSeek-V3 是目前最强的开源基础模型之一，特别是在代码、数学和长上下文任务上表现突出。未来计划包括：

优化模型在多语言和多领域的泛化能力。
探索更高效的硬件支持和训练方法。

　　三、DeepSeek-LLM：以长期主义扩展开源语言模型

　　2024年1月，DeepSeek大语言模型团队在《以长期主义扩展开源语言模型》（LLM Scaling Open-Source Language Models with Longtermism）论文中提出从长期主义角度推动开源语言模型的发展，重点研究了大语言模型的规模效应。他们基于研究成果开发了DeepSeek Chat，并在此基础上不断升级迭代。以下是这篇论文解读：

　　背景与目标

　　近年来，大型语言模型（LLM）通过自监督预训练和指令微调，逐步成为实现通用人工智能（AGI）的核心工具。然而，LLM 的规模化训练存在挑战，尤其是在计算资源和数据分配策略上的权衡问题。DeepSeek LLM 的研究旨在通过深入分析模型规模化规律，推动开源大模型的长期发展。该项目探索了模型规模和数据分配的最优策略，并开发了性能超越 LLaMA-2 70B 的开源模型，尤其在代码、数学和推理领域表现卓越。

　　数据与预训练