DeepSeek最重要的三篇论文解读

DeepSeek最重要的三篇论文解读
2025年01月29日 15:30 市场资讯

专题:DeepSeek为何能震动全球AI圈

  来源:硅谷科技评论

  中国人工智能初创企业DeepSeek(深度求索)正在以惊人的速度改写全球科技竞争格局。其最新推出的推理模型R1不仅性能卓越,与国际领先的OpenAI o1模型平分秋色,更以不到600万美元的训练成本震惊行业,这一数字仅为Meta大模型训练成本的十分之一。这一技术突破不仅在产业界掀起波澜,甚至引发了政治层面的关注。2025年初,美国总统特朗普在一场集会上直言不讳地表示,DeepSeek的崛起为美国产业界敲响了警钟,成为美国科技优势地位面临挑战的最新注脚。

  DeepSeek的成功并非偶然。过去一年中,该公司连续发布了多篇具有划时代意义的学术论文,奠定了其技术领先地位。硅谷科技评论(SVTR)结合内部访谈和专家反馈,认为在DeepSeek的众多论文中,以下几篇被认为是最重要的,主要因为它们在技术创新和实际应用中有着重大突破:

  • DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。

  • DeepSeek-V3:高效的混合专家模型。2024年12月发布,设计了一种高效的混合专家模型,通过激活少量参数实现性能和计算成本的平衡,是大规模模型优化的重要突破。

  • DeepSeek-LLM:以长期主义扩展开源语言模型。2024年1月发布,从长期主义视角提出开源语言模型发展策略,推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。

  文末阅读原文或者联系凯瑞(pkcapital2023),获取三篇论文原文。

  一、DeepSeek-R1:通过强化学习提升大型语言模型的推理能力

  《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》是一篇开创性的论文,专注于通过纯强化学习方法(而非传统的监督学习)来提升大型语言模型的推理能力。研究展示了模型在训练过程中通过强化学习表现出的“顿悟”现象,并显著提升了模型在数学和逻辑推理任务中的性能。以下是论文的详细解读:

  背景与目标

  近年来,大型语言模型(LLM)的推理能力成为人工智能研究的重要方向。然而,当前的许多方法依赖监督微调(SFT),这需要大量标注数据。论文提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 两种新型模型,通过大规模强化学习(RL)方法提升推理能力,旨在减少对监督数据的依赖,探索纯强化学习对推理能力的优化潜力。

  方法

  1. DeepSeek-R1-Zero:基于纯强化学习的推理能力提升

  • 强化学习算法: 使用 Group Relative Policy Optimization (GRPO),通过群体奖励优化策略模型。奖励设计包括准确性奖励(评估答案正确性)和格式奖励(引导模型按照指定格式输出推理过程)。

  • 自我演化与“灵光一现”现象: 模型通过 RL 自动学习复杂的推理行为,如自我验证和反思。随着训练过程的深入,模型逐步提升了复杂任务的解答能力,并在推理任务上显现突破性的性能提升。

  • DeepSeek-R1:结合冷启动数据的多阶段训练

  • 冷启动数据的引入: 从零开始的 RL 容易导致初期性能不稳定,为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。

  • 推理导向的强化学习: 通过多轮 RL,进一步优化模型在数学、编程等推理密集型任务中的表现。

  • 监督微调与拒绝采样: 使用 RL 检查点生成额外的推理和非推理任务数据,进一步微调模型。

  • 全场景强化学习: 在最终阶段结合多种奖励信号,提升模型的有用性和安全性。

  • 蒸馏:将推理能力传递至小模型。

  将 DeepSeek-R1 的推理能力通过蒸馏技术传递至 Qwen 和 Llama 系列小型模型。蒸馏后的模型在多个基准任务中超越了部分开源大模型。

  性能评估

  1. 推理任务

  • 在 AIME 2024、MATH-500 等数学任务中,DeepSeek-R1 达到 OpenAI-o1-1217 的性能水平。

  • 在编程任务(如 Codeforces 和 LiveCodeBench)上,表现优于大多数对比模型。

  • 知识任务

  • 在 MMLU 和 GPQA Diamond 等多学科基准测试中,DeepSeek-R1 展现了卓越的知识推理能力。

  • 其中文任务表现(如 C-Eval)显著优于其他开源模型。

  • 生成任务

  在 AlpacaEval 和 ArenaHard 等开放式生成任务中,DeepSeek-R1 的胜率分别达到 87.6% 和 92.3%,展现了强大的文本生成能力。

  结论与未来展望

  1. 关键发现

  • 通过强化学习,LLM 的推理能力可显著提升,即便无需监督数据。

  • 将推理能力蒸馏到小型模型中可以有效地提高计算效率,同时保持较高的性能。

  • 局限性

  • 语言混合问题:模型在处理多语言任务时可能输出混合语言。

  • 提示敏感性:模型对 few-shot 提示不够鲁棒。

  • 未来方向

  • 增强多语言支持,优化对中文以外语言的推理能力。

  • 研究大规模 RL 在软件工程任务中的应用。

  二、DeepSeek-V3:高效的混合专家模型

  《DeepSeek-V3: A Strong Mixture-of-Experts Language Model》 是一项关于混合专家(MoE)模型的研究,旨在通过激活少量专家网络实现高效计算,平衡模型性能和算力成本。该模型在多个复杂任务中表现出卓越的能力,同时显著降低了运行成本,为大模型的实际应用提供了新的思路。以下是论文 的解读:

  背景与目标

  随着大语言模型(LLM)的发展,DeepSeek-AI 团队提出了 DeepSeek-V3,一个拥有 6710 亿参数的混合专家(MoE)模型,每个 token 激活 370 亿参数。DeepSeek-V3 通过高效推理和经济成本的训练方法,旨在推动开源模型能力的极限,同时在性能上与闭源模型(如 GPT-4o 和 Claude-3.5)竞争。

  核心技术与架构创新

  1. 多头潜在注意力(MLA

  • 使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。

  • 引入旋转位置嵌入(RoPE)提高推理精度。

  • 混合专家架构(DeepSeekMoE)

  • 采用辅助损失优化的专家负载平衡策略,避免因负载不均导致的计算效率降低。

  • 引入“无辅助损失”的负载平衡新方法,通过动态调整路由偏差值,确保训练过程中的负载均衡。

  • 多 Token 预测目标(MTP

  • 扩展模型在每个位置预测多个未来 token 的能力,提高训练数据效率。

  • 在推理阶段,MTP 模块可被重新用于推测解码,从而加速生成。

  数据与训练效率

  1. 数据与预训练

  • 使用 14.8 万亿高质量多样化 token 数据进行训练。

  • 预训练过程非常稳定,未发生任何不可恢复的损失激增。

  • 优化训练框架

  • 设计了 DualPipe 算法,通过前向和反向计算的重叠,显著减少通信开销。

  • 支持 FP8 混合精度训练,结合细粒度量化策略,显著降低内存使用和通信开销。

  • 训练效率极高,每训练万亿 token 仅需 18 万 H800 GPU 小时,总成本约 557.6 万美元。

  • 长上下文扩展

  支持最大上下文长度从 32K 扩展至 128K,使模型更适用于长文档处理。

  后期优化与推理部署

  1. 监督微调(SFT)与强化学习RL

  • 通过 SFT 对齐模型输出与人类偏好。

  • 引入自适应奖励模型和 相对策略优化(GRPO),提升模型的推理能力。

  • 推理与部署

  • 在 NVIDIA H800 GPU 集群上部署,结合高效的专家路由和负载均衡策略,实现低延迟的实时服务。

  • 使用冗余专家策略进一步优化推理阶段的负载平衡。

  性能表现

  1. 知识任务

  • 在 MMLU 和 GPQA 等教育基准上,DeepSeek-V3 超越所有开源模型,并接近 GPT-4o 的性能。

  • 在中文事实性任务中表现尤为突出,领先大部分闭源模型。

  • 代码与数学任务

  • 在数学基准(如 MATH-500)上实现开源模型的最佳表现。

  • 在编程任务(如 LiveCodeBench)中排名第一,展示了卓越的代码生成能力。

  • 开放式生成任务

  在开放式生成任务中,DeepSeek-V3 的胜率显著高于其他开源模型,并接近闭源模型的水平。

  结论与未来方向

  DeepSeek-V3 是目前最强的开源基础模型之一,特别是在代码、数学和长上下文任务上表现突出。未来计划包括:

  • 优化模型在多语言和多领域的泛化能力。

  • 探索更高效的硬件支持和训练方法。

  三、DeepSeek-LLM:以长期主义扩展开源语言模型

  2024年1月,DeepSeek大语言模型团队在《以长期主义扩展开源语言模型》 (LLM Scaling Open-Source Language Models with Longtermism)论文中提出从长期主义角度推动开源语言模型的发展,重点研究了大语言模型的规模效应。他们基于研究成果开发了DeepSeek Chat,并在此基础上不断升级迭代。以下是这篇论文解读:

  背景与目标

  近年来,大型语言模型(LLM)通过自监督预训练和指令微调,逐步成为实现通用人工智能(AGI)的核心工具。然而,LLM 的规模化训练存在挑战,尤其是在计算资源和数据分配策略上的权衡问题。DeepSeek LLM 的研究旨在通过深入分析模型规模化规律,推动开源大模型的长期发展。该项目探索了模型规模和数据分配的最优策略,并开发了性能超越 LLaMA-2 70B 的开源模型,尤其在代码、数学和推理领域表现卓越。

  数据与预训练

  1. 数据处理

  • 处理了包含 2 万亿个 token 的双语数据集(中文和英文)。

  • 采取了去重、过滤和重新混合三阶段策略,以提高数据多样性和信息密度。

  • 使用 Byte-level Byte-Pair Encoding(BBPE)分词算法,词表大小设置为 102,400。

  • 模型架构

  • 微观设计:借鉴 LLaMA 的架构,采用 RMSNorm 和 SwiGLU 激活函数,以及旋转位置编码。

  • 宏观设计:DeepSeek LLM 7B 具有 30 层,而 67B 增加至 95 层,并通过深度扩展优化性能。

  • 超参数优化

  • 引入多阶段学习率调度器,优化训练过程并支持持续训练。

  • 使用 AdamW 优化器,并对学习率、批次大小等关键超参数进行了规模化规律研究。

  • 基础设施

  开发了高效轻量化的训练框架 HAI-LLM,集成了数据并行、张量并行等技术,显著提升硬件利用率。

  模型规模化规律

  1. 超参数规模化规律

  • 通过实验发现,随着计算预算增加,最佳批次大小随之增大,而学习率则逐渐降低。

  • 提出了经验公式,以更准确地预测不同规模模型的超参数。

  • 模型与数据规模分配策略

  • 引入了非嵌入 FLOPs/token(MMM)作为模型规模的度量方式,替代传统的参数数量表示,显著提高了计算预算分配的精确性。

  • 实验表明,高质量数据允许更多的预算分配到模型规模扩展上,从而提升性能。

  对齐与微调

  1. 监督微调(SFT

  • 收集了 150 万条指令数据,包括通用语言任务、数学问题和代码练习。

  • 在微调中,通过两阶段策略降低了模型的重复生成率,同时保持了基准性能。

  • 直接偏好优化(DPO

  使用多语言提示生成偏好数据,通过优化模型对开放式问题的生成能力显著增强。

  性能评估

  1. 公共基准测试

  • 数学和代码:DeepSeek LLM 67B 在 HumanEval 和 GSM8K 上显著优于 GPT-3.5 和 LLaMA-2 70B。

  • 中文任务:在 C-Eval、CMath 等基准上,DeepSeek 表现出色,尤其在中文成语填空(CHID)等文化任务中远超 LLaMA-2。

  • 开放式生成能力

  • 在 AlignBench 中文测试中,DeepSeek 67B Chat 在逻辑推理和文本生成等任务上表现接近 GPT-4。

  • 英文测试中,DeepSeek 67B Chat 在多轮对话生成能力上超越大多数开源模型。

  • 安全评估

  专业团队设计了覆盖多种安全问题的测试集,DeepSeek 在歧视偏见、合法权益和违法行为等多方面均展现出高安全性。

  结论与未来方向

  论文总结了 DeepSeek LLM 在开源大模型规模化领域的突破,包括:

  • 提出了更精确的模型规模与数据分配策略。

  • 在多个领域的任务中实现性能领先,尤其在数学、代码和中文任务上表现出色。 未来将继续优化高质量数据的利用,并探索更广泛的安全性和对齐技术。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:何俊熹

0条评论|0人参与网友评论

APP专享直播

开播时间 | 2-17 09:00
华夏基金:解盘一刻
开播时间 | 2-17 09:00
光大证券雪姐:阳光早参-利好来袭!尾盘拉升!反弹重启?
开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
开播时间 | 2-17 09:00
华夏基金:解盘一刻
开播时间 | 2-17 09:00
光大证券雪姐:阳光早参-利好来袭!尾盘拉升!反弹重启?
开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
上一页下一页
1/10

热门推荐

61岁乘客在飞机上昏迷抢救无效死亡 航司回应 收起
61岁乘客在飞机上昏迷抢救无效死亡 航司回应

61岁乘客在飞机上昏迷抢救无效死亡 航司回应

  • 2025年02月16日
  • 14:00
  • APP专享
  • 扒圈小记
  • 43,514
APP专享
法国小伙带622张日军侵华照片抵达北京,希望捐赠给中国

法国小伙带622张日军侵华照片抵达北京,希望捐赠给中国

  • 2025年02月16日
  • 13:38
  • APP专享
  • 扒圈小记
  • 19,851
APP专享
影院支持《哪吒2》暂不排片《美队4》,回应:放映厅少,优先支持国漫

影院支持《哪吒2》暂不排片《美队4》,回应:放映厅少,优先支持国漫

  • 2025年02月16日
  • 11:25
  • APP专享
  • 北京时间
  • 5,385
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.26 0.00%
京东方A 4.63 +1.09%
TCL科技 4.99 +0.40%
中远海控 14.69 +0.41%
格力电器 43.47 -1.18%
广告

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭
    关闭