DeepSeek: 如何成为AI领域最大的黑马？我们启用了一群没有工作履历的年轻人……_新浪财经

　　图片 | 来自网络

　　原创整理 | TOP创新区研究院，FTA Group

　　1月20日，不仅是美国换“老板”的日子，AI圈也迎来了一件大事——DeepSeek 上线了他们全新的开源推理大模型 DeepSeek-R1，它在数学、编程和推理上的表现已经和 OpenAI 的 o1 不分伯仲，但API 调用成本便宜了90-95%。

　　网友惊呼：这才是真正的Open AI （This is true OPEN AI 😏）

　　当天，DeepSeek创始人梁文锋出席由总理主持的研讨会，会议上总理呼吁通过科技创新创造经济“新增长动力”，以帮助“保障和改善民生”。

　　隔天，1月21日，美国计算机科学家、“AI教育第一人”、Sam Altman的导师吴恩达在第55届世界经济论坛（冬季达沃斯）上点赞DeepSeek——“我对 DeepSeek 的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型，非常出色……‘加油’！”

　　此前，这家公司在2024年末发布 V3 版本的时候就已经圈粉无数。

　　Nvidia 的高级研究员 Jim Fan 元旦发帖称，“DeepSeek 已成为今年 OSS LLM领域最大的黑马，这表明资源限制迫使你以惊人的方式重塑自我。”

　　↓

　　Jim指的是 DeepSeek V3 的开发过程——他们用大约 2，048 块性能较弱的 Nvidia H800 芯片（为中国市场定制版，受限于国际出口管制，性能较 H100 稍逊，内存带宽和算力均有调低）在两个月内完成了训练，花费仅为 558 万美元。

　　用 OpenAI 创始团队成员 Andrej Karpathy 的话来说，这简直是“可笑的预算 joke of a budget ”，刷新了行业的认知。

　　全球AI产业的版图，像一盘刚开不久的棋局。

　　大家的共识是，这是一个金钱游戏：你必须有无尽的资金和算力。

　　目前，OpenAI凭借GPT-4系列稳居技术先锋位置，Meta的Llama 3巩固了其开源模型的领导地位，重量级玩家还有Google、Anthropic、Perplexity等；

　　中国的腾讯、百度、阿里、字节等一众科技公司也在全速前进，中国的优势在于专利与国家战略支持。去年9月，中金公司(38.870, 2.44, 6.70%)估计，从2025年起的六年内，中国对人工智能行业的投资规模可能达到1.4万亿美元。

　　图源：Stanford’s Institute for Human-Centered Artificial Intelligence （HAI）

　　虽然AI的竞赛才刚拉开帷幕，但双方都知道其战略重要性，局面已然白热化。

　　而正是在这“烧钱大赛”中，DeepSeek的出现显得尤为与众不同——

　　要知道，OpenAI训练GPT-4烧掉7800万美元，Meta的Llama 3超过1个亿美元，Gemini Ultra差不多2个亿了。

　　是，你有钱你有芯片，你有你的烧钱玩法；咱们条件是差点儿，还有芯片禁令，不过常言道：生产力，是穷逼出来的，DeepSeek用阉割版的芯片耗资不到600万美元，模型就水灵灵地出来了，调用量暴增↓

　　来源：https：//openrouter.ai/rankings？view=day

　　具体的技术方面，我们理解下来是这样的（欢迎技术大佬指正）：

　　DeepSeek的策略通过优化架构（如多头潜在注意力机制MLA）和创新算法（DeepSeekMoE），有效减少了对高性能硬件（GPU）的依赖。

　　比如其多头潜在注意力机制（MLA）将传统的多头注意力机制进行了改造，像是将以前的整本书的内容总结成一个高质量的摘要——信息浓缩了，但关键点都在，这样能大幅度降低对内存和计算资源的需求；

　　再如其自主研发的DeepSeekMoE（专家模型混合架构），其核心思路是，将模型中的“计算任务”分配给多个专家模块，每次只激活少数相关的专家，减少了计算冗余，就像“你们公司品牌部开会，不需要让财务部参与”一个道理。

　　当然还有很多其他的秘诀，这些技术的结合使得DeepSeek能够在性能和成本之间找到最佳平衡。

　　并且，DeepSeek选择的是开源的路线，把技术慷慨地分享给全球开发者。开发人员可以使用这些模型构建第三方应用程序，初创公司也可以使用这些模型创建自己的聊天机器人(20.920, -0.83, -3.82%)。这样的策略不仅为自己赢得了技术口碑，还推动了一场AI行业的降价潮。

　　更重要的是，这种“开源+高性价比”的模式可能还为中国AI产业提供了一条新路径，有效绕过芯片和资金的瓶颈，打破“资源为王”的局面。

　　DeepSeek这步棋，不只是漂亮，还透着几分“反击”的俏皮智慧。

　　很多人会好奇：DeepSeek，这家公司是从哪儿“蹦”出来的？

　　其实，这家公司脱胎于一家中国顶尖的量化投资基金——High-Flyer Quant（幻方量化）。

　　幻方的创始人之一梁文锋来自广东，后在浙大攻读电子信息和计算机视觉专业。在大学期间，他就开始与一群志同道合的同学探索如何利用人工智能实现股票投资的自动化。

　　2015年，他与校友徐进共同创立了幻方量化。徐进是浙江大学信号与信息处理专业的博士，曾在华为上海研究所任职。

　　为了用AI构建投资策略，他们购置了大量 GPU。

　　据相关信息，幻方管理的资产从 2016 年的 10 亿元人民币增至 2019 年的 100 多亿元人民币。

　　2019年到2021年，他们投资12+ 亿元，先后研发了超级AI集群 “萤火一号”和“萤火二号”。其中，“萤火二号”搭载了约 1 万张英伟达 A100 显卡，算力超过 72 万台个人电脑。

　　借助 AI，幻方量化管理的资产在 2021 年突破 1000 亿元。

　　2022年底，ChatGPT 的横空出世让已经积累多年的梁文锋下定决心要进军通用人工智能领域了：

　　“我们建了一个名为 DeepSeek 的新公司，从语言大模型开始，后边也会有视觉等。”

　　2023 年 4 月，该公司在一份声明中表示：

　　“多年来，幻方将很大一部分利润投入到人工智能领域，以打造领先的人工智能基础设施并开展大规模研究。”

　　几个月后，幻方剥离了 DeepSeek，DeepSeek 的开发由幻方全资资助。当时没有风险投资公司愿意提供资金，因为它们不太可能在短时间内实现退出。

　　2023 年 11 月，DeepSeek 推出了 DeepSeek LLM，其参数多达 670 亿个，其性能接近 GPT-4。

　　2024 年 5 月，DeepSeek-V2 正式上线。

　　2024 年 12 月，DeepSeek-V3 发布，基准测试表明，它的表现优于 Llama 3.1 和 Qwen 2.5，同时与 GPT-4o 和 Claude 3.5 Sonnet 相当，引爆了业内关注。

　　最近，DeepSeek 发布了 R1 模型。

　　在外网一个 DeepSeek R1 全面测试的视频中，底下有观众留言：

　　“如果这不是中国的‘创新’，我不知道什么是！干得漂亮！”

　　DeepSeek团队的神秘面纱让人们好奇：它的秘密武器是什么？

　　外媒说，这一秘密武器是“年轻天才”，他们足以与财力雄厚的美国巨头展开竞争。

　　在AI行业，聘请经验丰富的老将是常态，许多中国本土的AI初创公司更倾向于招聘资深研究人员或拥有海外博士学位的人才。

　　然而，DeepSeek却反其道而行，偏爱没有工作履历的年轻人。

　　一名曾与DeepSeek合作的猎头透露，DeepSeek不招资深技术人员，“工作经验在3-5年已经是最多的了，工作超8年的基本就pass了。”

　　梁文锋在2023年5月接受36氪采访时也表示，DeepSeek的大多数开发人员要么是应届毕业生，要么是刚开始从事人工智能职业的人。他强调：“我们的核心技术岗位大多由应届毕业生或具有一两年工作经验的人担任。”

　　没有工作履历，DeepSeek是如何选人的？

　　答案是，看潜力。

　　梁文锋曾说，做一件长期的事，经验其实没那么重要，相比之下基础能力、创造性和热爱等更重要。

　　他认为，或许目前世界排名前50的顶尖AI人才还不在中国，

　　“但我们能自己打造这样的人。”

　　比如在MLA架构研究中做出了关键创新的高华佐和曾旺丁。高华佐于2017年毕业于北京大学物理学专业，曾旺丁于2021年开始在北京邮电大学人工智能研究所攻读硕士学位。

　　还有里程碑式成果GRPO（Group Relative Policy Optimization）是由三位实习生完成，其中包括邵智宏和朱琪豪，当时邵智宏还是清华CoAI课题组博士生，研究稳健可扩展的AI系统，曾参与多个关键项目，如DeepSeek-Prover和DeepSeek-Coder-V2。朱琪豪则是北大计算机学院博士生，以深度代码学习为研究方向，发表了16篇CCF-A类论文，并获得多项国际会议奖项。

　　团队还有一批从V1就开始参与的核心成员，如北大博士生代达劢和王炳宣。代达劢以预训练语言模型研究获奖，发表论文20余篇，是V1到V3项目的重要推进者。而清华的赵成钢，则以超算竞赛冠军的背景担任训练和推理架构工程师，支撑着DeepSeek大模型的硬件性能优化。

　　或许，95后“天才AI少女”罗福莉是团队中最为大众所知的人物——小米创始人雷军以千万年薪将她招募至小米AI实验室，领导AI大模型团队。罗福莉本科毕业于北京师范大学计算机专业，硕士毕业于北京大学计算语言学专业。毕业后，她加入阿里达摩院，主导开发了多语言预训练模型VECO。2022年，她加入DeepSeek，参与DeepSeek-V2的研发。