
图片 | 来自网络
原创整理 | TOP创新区研究院,FTA Group


1月20日,不仅是美国换“老板”的日子,AI圈也迎来了一件大事——DeepSeek 上线了他们全新的开源推理大模型 DeepSeek-R1,它在数学、编程和推理上的表现已经和 OpenAI 的 o1 不分伯仲,但API 调用成本便宜了90-95%。

网友惊呼:这才是真正的Open AI (This is true OPEN AI 😏)
当天,DeepSeek创始人梁文锋出席由总理主持的研讨会,会议上总理呼吁通过科技创新创造经济“新增长动力”,以帮助“保障和改善民生”。

隔天,1月21日,美国计算机科学家、“AI教育第一人”、Sam Altman的导师吴恩达在第55届世界经济论坛(冬季达沃斯)上点赞DeepSeek——“我对 DeepSeek 的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型,非常出色……‘加油’!”
此前,这家公司在2024年末发布 V3 版本的时候就已经圈粉无数。
Nvidia 的高级研究员 Jim Fan 元旦发帖称,“DeepSeek 已成为今年 OSS LLM领域最大的黑马,这表明资源限制迫使你以惊人的方式重塑自我。”
↓

Jim指的是 DeepSeek V3 的开发过程——他们用大约 2,048 块性能较弱的 Nvidia H800 芯片(为中国市场定制版,受限于国际出口管制,性能较 H100 稍逊,内存带宽和算力均有调低)在两个月内完成了训练,花费仅为 558 万美元。
用 OpenAI 创始团队成员 Andrej Karpathy 的话来说,这简直是“可笑的预算 joke of a budget ”,刷新了行业的认知。


全球AI产业的版图,像一盘刚开不久的棋局。
大家的共识是,这是一个金钱游戏:你必须有无尽的资金和算力。
目前,OpenAI凭借GPT-4系列稳居技术先锋位置,Meta的Llama 3巩固了其开源模型的领导地位,重量级玩家还有Google、Anthropic、Perplexity等;
中国的腾讯、百度、阿里、字节等一众科技公司也在全速前进,中国的优势在于专利与国家战略支持。去年9月,中金公司(38.870, 2.44, 6.70%)估计,从2025年起的六年内,中国对人工智能行业的投资规模可能达到1.4万亿美元。

图源:Stanford’s Institute for Human-Centered Artificial Intelligence (HAI)
虽然AI的竞赛才刚拉开帷幕,但双方都知道其战略重要性,局面已然白热化。
而正是在这“烧钱大赛”中,DeepSeek的出现显得尤为与众不同——
要知道,OpenAI训练GPT-4烧掉7800万美元,Meta的Llama 3超过1个亿美元,Gemini Ultra差不多2个亿了。

是,你有钱你有芯片,你有你的烧钱玩法;咱们条件是差点儿,还有芯片禁令,不过常言道:生产力,是穷逼出来的,DeepSeek用阉割版的芯片耗资不到600万美元,模型就水灵灵地出来了,调用量暴增↓

来源:https://openrouter.ai/rankings?view=day
具体的技术方面,我们理解下来是这样的(欢迎技术大佬指正):
DeepSeek的策略通过优化架构(如多头潜在注意力机制MLA)和创新算法(DeepSeekMoE),有效减少了对高性能硬件(GPU)的依赖。
比如其多头潜在注意力机制(MLA)将传统的多头注意力机制进行了改造,像是将以前的整本书的内容总结成一个高质量的摘要——信息浓缩了,但关键点都在,这样能大幅度降低对内存和计算资源的需求;
再如其自主研发的DeepSeekMoE(专家模型混合架构),其核心思路是,将模型中的“计算任务”分配给多个专家模块,每次只激活少数相关的专家,减少了计算冗余,就像“你们公司品牌部开会,不需要让财务部参与”一个道理。
当然还有很多其他的秘诀,这些技术的结合使得DeepSeek能够在性能和成本之间找到最佳平衡。

并且,DeepSeek选择的是开源的路线,把技术慷慨地分享给全球开发者。开发人员可以使用这些模型构建第三方应用程序,初创公司也可以使用这些模型创建自己的聊天机器人(20.920, -0.83, -3.82%)。这样的策略不仅为自己赢得了技术口碑,还推动了一场AI行业的降价潮。
更重要的是,这种“开源+高性价比”的模式可能还为中国AI产业提供了一条新路径,有效绕过芯片和资金的瓶颈,打破“资源为王”的局面。
DeepSeek这步棋,不只是漂亮,还透着几分“反击”的俏皮智慧。

很多人会好奇:DeepSeek,这家公司是从哪儿“蹦”出来的?
其实,这家公司脱胎于一家中国顶尖的量化投资基金——High-Flyer Quant(幻方量化)。

幻方的创始人之一梁文锋来自广东,后在浙大攻读电子信息和计算机视觉专业。在大学期间,他就开始与一群志同道合的同学探索如何利用人工智能实现股票投资的自动化。
2015年,他与校友徐进共同创立了幻方量化。徐进是浙江大学信号与信息处理专业的博士,曾在华为上海研究所任职。
为了用AI构建投资策略,他们购置了大量 GPU。
据相关信息,幻方管理的资产从 2016 年的 10 亿元人民币增至 2019 年的 100 多亿元人民币。
2019年到2021年,他们投资12+ 亿元,先后研发了超级AI集群 “萤火一号”和“萤火二号”。其中,“萤火二号”搭载了约 1 万张英伟达 A100 显卡,算力超过 72 万台个人电脑。

借助 AI,幻方量化管理的资产在 2021 年突破 1000 亿元。
2022年底,ChatGPT 的横空出世让已经积累多年的梁文锋下定决心要进军通用人工智能领域了:
“我们建了一个名为 DeepSeek 的新公司,从语言大模型开始,后边也会有视觉等。”
2023 年 4 月,该公司在一份声明中表示:
“多年来,幻方将很大一部分利润投入到人工智能领域,以打造领先的人工智能基础设施并开展大规模研究。”
几个月后,幻方剥离了 DeepSeek,DeepSeek 的开发由幻方全资资助。当时没有风险投资公司愿意提供资金,因为它们不太可能在短时间内实现退出。

2023 年 11 月,DeepSeek 推出了 DeepSeek LLM,其参数多达 670 亿个,其性能接近 GPT-4。
2024 年 5 月,DeepSeek-V2 正式上线。
2024 年 12 月,DeepSeek-V3 发布,基准测试表明,它的表现优于 Llama 3.1 和 Qwen 2.5,同时与 GPT-4o 和 Claude 3.5 Sonnet 相当,引爆了业内关注。
最近,DeepSeek 发布了 R1 模型。
在外网一个 DeepSeek R1 全面测试的视频中,底下有观众留言:
“如果这不是中国的‘创新’,我不知道什么是!干得漂亮!”


DeepSeek团队的神秘面纱让人们好奇:它的秘密武器是什么?
外媒说,这一秘密武器是“年轻天才”,他们足以与财力雄厚的美国巨头展开竞争。
在AI行业,聘请经验丰富的老将是常态,许多中国本土的AI初创公司更倾向于招聘资深研究人员或拥有海外博士学位的人才。
然而,DeepSeek却反其道而行,偏爱没有工作履历的年轻人。
一名曾与DeepSeek合作的猎头透露,DeepSeek不招资深技术人员,“工作经验在3-5年已经是最多的了,工作超8年的基本就pass了。”
梁文锋在2023年5月接受36氪采访时也表示,DeepSeek的大多数开发人员要么是应届毕业生,要么是刚开始从事人工智能职业的人。他强调:“我们的核心技术岗位大多由应届毕业生或具有一两年工作经验的人担任。”
没有工作履历,DeepSeek是如何选人的?
答案是,看潜力。
梁文锋曾说,做一件长期的事,经验其实没那么重要,相比之下基础能力、创造性和热爱等更重要。
他认为,或许目前世界排名前50的顶尖AI人才还不在中国,
“但我们能自己打造这样的人。”

比如在MLA架构研究中做出了关键创新的高华佐和曾旺丁。高华佐于2017年毕业于北京大学物理学专业,曾旺丁于2021年开始在北京邮电大学人工智能研究所攻读硕士学位。
还有里程碑式成果GRPO(Group Relative Policy Optimization)是由三位实习生完成,其中包括邵智宏和朱琪豪,当时邵智宏还是清华CoAI课题组博士生,研究稳健可扩展的AI系统,曾参与多个关键项目,如DeepSeek-Prover和DeepSeek-Coder-V2。朱琪豪则是北大计算机学院博士生,以深度代码学习为研究方向,发表了16篇CCF-A类论文,并获得多项国际会议奖项。
团队还有一批从V1就开始参与的核心成员,如北大博士生代达劢和王炳宣。代达劢以预训练语言模型研究获奖,发表论文20余篇,是V1到V3项目的重要推进者。而清华的赵成钢,则以超算竞赛冠军的背景担任训练和推理架构工程师,支撑着DeepSeek大模型的硬件性能优化。

或许,95后“天才AI少女”罗福莉是团队中最为大众所知的人物——小米创始人雷军以千万年薪将她招募至小米AI实验室,领导AI大模型团队。罗福莉本科毕业于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。毕业后,她加入阿里达摩院,主导开发了多语言预训练模型VECO。2022年,她加入DeepSeek,参与DeepSeek-V2的研发。

图片来自公众号“阿里达摩院扫地僧”
DeepSeek团队规模不大,不到140人,成员没有“大佬”,鲜有“海归”,大多数人的工作时间不长,不少还是在读博士。即便是团队的管理者,也非常年轻。正是这群“硬核新人”一步步将DeepSeek推向行业巅峰。
奇点学校(sigularity)的校长Peter Diamondis曾说:
你要想你的公司有十倍的增长,好,那就雇上一班子20几岁的年轻人吧!
为什么是年轻人?他们聪明,勤奋,天真。他们身上有你想要的所有重塑系统的素质。这些年轻人没有关于世界应该怎样,工作应该如何等的先入为主的观念,这使他们有质疑一切的能力。

创新的事,还是要交给新人去做。

德鲁克曾经说过,管理创新的知识工作者是一个世界性难题。
那DeepSeek如何管理、留住这些年轻的天才?
答案是:给足钱,给足算力、自发式组队,启发式引导。
知情人士透露,DeepSeek的薪酬对标字节研发,而且根据竞争对手的报价直接加价。
而在算力比人还贵的当下,在这里是“随便用”——团队成员在资源使用上几乎没有限制——每个人都可以随时调用训练集群,无需繁琐审批,而且只要几个人对某个想法感兴趣,就能迅速启动项目。而当某个创意展现出潜力时,公司会果断调动资源,从上到下全力支持其发展。

同时在团队管理上,DeepSeek摒弃了传统的岗位前置分工,选择了一种更加灵活的“自然分工”模式:员工自主组建小组,成员间无固定分工,更无上下级关系;不设KPI,也没有商业化压力。
这种开放与自由的工作方式,让创新得以最大化释放。
梁文锋对团队的管理风格低调而细腻。他喜欢用暗示而非命令的方式引导团队成员,常通过点拨式的短语激发解决方案。
一位员工评价说,梁更像是导师,而不是老板。
这位出身广东五线城市的创始人,从小就有着与众不同的执着。
他的父亲是小学老师,彼时,广东被视为充满商机的热土,常有家长跑到他家说着“读书无用论”;但梁父却一直坚信教育的价值。
受父亲的影响,梁文锋对知识一直充满好奇,并且相信,
基础研究才是改变世界的根本。
梁文锋坦言,DeepSeek的使命不是追逐应用层面的成功,而是专注基础研究,只负责基础模型和前沿的创新。
在他看来,很多中国公司习惯follow(跟随)而不是创新。
在互联网时代,很多人都会有一种惯性思维,认为欧美科技圈擅长从0到1的技术创新,而中国人更习惯从1到N,在应用层面发力。
但他相信,中国AI不会“永远处于跟随的位置”,DeepSeek的目标,就是以创新者的身份加入全球技术浪潮。
“创新首先需要自信。”他说。
责任编辑:江钰涵



![[赞] [赞]](https://n.sinaimg.cn/commnet/2018new_zan_org.png)

![[赞] [赞]](https://n.sinaimg.cn/commnet/2018new_zan_org.png)
APP专享直播
热门推荐
特朗普:移民金卡会卖疯的,要有1000万人买,就能赚50万亿还清美国债务 收起特朗普:移民金卡会卖疯的,要有1000万人买,就能赚50万亿还清美国债务
- 2025年02月27日
- 03:52
- APP专享
- 扒圈小记
3,043
美媒:特朗普称,他有可能无法促成俄乌和平
- 2025年02月27日
- 01:03
- APP专享
- 扒圈小记
2,272
特朗普:不再向乌方提供新军援,普京必须在谈判中让步!他还称将给欧盟加25%关税,由欧洲保障乌克兰安全!
- 2025年02月27日
- 01:11
- APP专享
- 北京时间
2,065

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:26:48
今天最大的新闻,雷军盘中成为中国新首富。但收盘小米集团大跌,又把首富拱手让给卖水的钟睒睒了!从2022年至今,小米港股累计涨幅已经超过570%。小米股票在今天又再次创下了历史新高。而雷军持有小米集团约24.2%的股份,对应市值约3412亿元人民币。 -
趋势领涨今天 11:03:55
【九号公司(sh689009):2024年净利润10.88亿元 同比增长81.9%】九号公司(sh689009)(***)公告称,2024年营业总收入为141.71亿元,同比增长38.63%;归属于母公司所有者的净利润为10.88亿元,同比增长81.90%。主要原因是公司通过优化经营策略,开拓市场,使得电动两轮车、电动滑板车、全地形车和服务机器人(sz300024)等业务条线的产品销量持续增长。 -
趋势领涨今天 10:03:13
【九号公司(sh689009):2024年净利润10.88亿元 同比增长81.9%】九号公司(sh689009)(689009.SH)公告称,2024年营业总收入为141.71亿元,同比增长38.63%;归属于母公司所有者的净利润为10.88亿元,同比增长81.90%。主要原因是公司通过优化经营策略,开拓市场,使得电动两轮车、电动滑板车、全地形车和服务机器人(sz300024)等业务条线的产品销量持续增长。 -
趋势领涨今天 09:43:09
国家能源局:光伏内卷式竞争仍未根本解决 正在配合有关部门研究完善政策措施;支持能源体系低碳转型 加大对充电基础设施领域的金融支持。银行保险机构要围绕太阳能(sz000591)光伏、风电、水电、抽水蓄能、特高压、核能、储能、智能电网、微电网等新能源产业生产、建设和运营以及更新、升级和改造。 -
数字江恩今天 09:34:48
直接看近期的5分钟图。今天的回踩是非常技术性的,3356区间反复磨蹭之后,最低点3353就快速拉起,和本人昨日给的3350支撑非常吻合。大盘走出这个的形态,应该说3384之后的宽幅震荡,有了明显的之字形特征,低点3337看为支撑。而在未来两个交易日之内,看图上的红色轮谷线,这条轮谷线只要不跌破,那么大盘首先要攻打3400以上的空间。毕竟恒生早就突破了3674对应位置,A股一直在3400之下也是不恰当的。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:34:23
板块来说,今天变化非常明显,之前炙手可热的云概念和机器人(sz300024)今日回踩幅度较大。而大消费类、新能源类,今天则表现不错。权重方向,金融石油酿酒地产建筑都有表现。 -
数字江恩今天 09:34:15
A股两市今日成交7741 + 12305 = 20046 亿人民币,再次超过2万亿的成交金额显示出了市场的热情。大盘今日先回踩下试了3356区间的支撑,然后强力反弹,收涨8个点。个股方面,涨跌比约为4:6。 -
数字江恩今天 09:34:10
看轮谷线支撑 -
趋势领涨今天 07:59:34
【今日投资舆情热点】1)算力相关:DeepSeek作为开源AI大模型,各大厂商纷纷宣布接入,将直接拉动对于算力及云服务的需求。2)食品消费:五部门印发《优化消费环境三年行动方案(2025-2027年)》,到2027年,消费供给提质、消费秩序优化、消费维权提效、消费环境共治、消费环境引领等五大行动深入开展。3)机器人(sz300024):机构称,大模型快速迭代,推动具身智能大发展,特斯拉不再是产业链唯一风向标,将会涌现出来更多参与者。4)固态电池:中国电动汽车百人会表示,在新能源汽车领域,预计到2027年全固态电池开始装车,预计到2030年可以实现量产化应用。 -
趋势领涨今天 07:58:31
【今日投资舆情热点】1)算力相关:DeepSeek作为开源AI大模型,各大厂商纷纷宣布接入,将直接拉动对于算力及云服务的需求。2)食品消费:五部门印发《优化消费环境三年行动方案(2025-2027年)》,到2027年,消费供给提质、消费秩序优化、消费维权提效、消费环境共治、消费环境引领等五大行动深入开展。3)机器人(sz300024):机构称,大模型快速迭代,推动具身智能大发展,特斯拉不再是产业链唯一风向标,将会涌现出来更多参与者。4)固态电池:中国电动汽车百人会表示,在新能源汽车领域,预计到2027年全固态电池开始装车,预计到2030年可以实现量产化应用。