DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3 405B的开源模型,震撼了整个AI圈。
紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才
这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一怎样的团队?
![](http://n.sinaimg.cn/spider20250104/156/w660h1096/20250104/21ca-db4f9762a1652d0a0ddf6ac617ca7b2c.jpg)
国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。
![](http://n.sinaimg.cn/spider20250104/791/w660h131/20250104/27f6-69c367cf716397dfcb618998299b9e43.jpg)
量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻
应届生、在读生,特别是来自清北的应届生在其中非常活跃。
他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
![](http://n.sinaimg.cn/spider20250104/96/w660h236/20250104/7aad-137fa7bdb2a84aa9ea6edbd0958a9b46.jpg)
![](http://n.sinaimg.cn/spider20250104/770/w660h110/20250104/66d5-5777495fc2ae5d968b383726ad55d6dc.jpg)
他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
![](http://n.sinaimg.cn/spider20250104/64/w660h204/20250104/aaca-d48211c9e91c08b39569cc3c9aa7922a.jpg)
在一众贡献者中,高华佐曾旺丁为MLA架构做出了关键创新。
![](http://n.sinaimg.cn/spider20250104/779/w660h119/20250104/687b-2e886ae1fcd3b3ba81060bfa7a7288dc.jpg)
高华佐非常低调,目前只知道是北大物理系毕业。
另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。
![](http://n.sinaimg.cn/spider20250104/173/w660h313/20250104/ff87-397fe5c4fe8e638cf75767b6fe976518.jpg)
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
![](http://n.sinaimg.cn/spider20250104/12/w660h152/20250104/9724-3b77fe929e44397b2032243802be14f8.jpg)
DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO
DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。
GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。
![](http://n.sinaimg.cn/spider20250104/200/w660h340/20250104/9366-946cc6c526c46177bcb99f4896184832.jpg)
GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。
![](http://n.sinaimg.cn/spider20250104/54/w660h194/20250104/d5cd-f545a6ed9c401dca8e8d504a31dedc17.jpg)
DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。
![](http://n.sinaimg.cn/spider20250104/133/w660h273/20250104/1eeb-01b72c24a11aee378ae82be5a17e4c31.jpg)
核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
![](http://n.sinaimg.cn/spider20250104/86/w660h226/20250104/5836-a68b761063f8103512b1847795128f8b.jpg)
他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。
邵智宏之前还曾在微软研究院工作过。
DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。
![](http://n.sinaimg.cn/spider20250104/247/w660h387/20250104/31c9-497c8f3ee259362c00fecb0804051eb9.jpg)
另一位核心作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。
据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。
其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。
![△图源:北京大学计算机学院公众号](http://n.sinaimg.cn/spider20250104/785/w660h925/20250104/dec5-9eaa7d81aabaffb4841ac25e1a0bc132.jpg)
还有一位核心作者同样来自北大。
北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。
![](http://n.sinaimg.cn/spider20250104/71/w660h211/20250104/73d1-3003169f431b7206931865462513b65d.jpg)
除了DeepSeek-V2 MLA、DeepSeekMath GRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。
代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。
![△图源:北京大学计算机学院公众号](http://n.sinaimg.cn/spider20250104/622/w660h762/20250104/bb2b-eb1bd64eb265bf3dfb5077c12e6c19ad.jpg)
代达劢学术成果颇丰,曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,在各大顶会发表学术论文20篇+。
2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。
以及北大元培学院的王炳宣
![](http://n.sinaimg.cn/spider20250104/304/w660h444/20250104/6b6a-b7c6d9ec44b74fa55e084e2331b96f6e.jpg)
王炳宣来自山东烟台,2017年进入北大。
硕士毕业加入DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要工作。
清华这边的代表人物还有赵成钢
赵成钢此前是衡水中学信息学竞赛班成员,CCF NOI2016银牌得主。
之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。
![△图源:清华新闻网](http://n.sinaimg.cn/spider20250104/267/w660h407/20250104/b953-1180e36e6cbba89eaeb4f91bf74356c6.jpg)
这些鲜活的个体,足以引发人们的赞叹。
但还不足以回答最初的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?
答案或许还要从创始人梁文锋身上找。
早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。
从后面一年多陆续发表的论文贡献名单中也可以看出,确实如此,博士在读、应届以及毕业一两年的成员占很大一部分。
即使是团队leader级别也偏年轻化,以毕业4-6年的为主。
例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。
![](http://n.sinaimg.cn/spider20250104/317/w660h457/20250104/bd55-f854fb700c8c2b81995bfddcf3a55239.jpg)
吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合培养。
与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合培养,2023年博士毕业。
2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。
郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”
![](http://n.sinaimg.cn/spider20250104/360/w660h500/20250104/5f5d-9fe622ac56a0f2b883dff75c6f501b5a.jpg)
除了团队成员年轻化之外,DeepSeek在国内AI公司中突出的特点:非常重视模型算法和硬件工程的配合。
DeepSeek v3论文总共200位作者,并不都是负责AI算法或数据。
有这样一批人从早期的DeepSeek LLM v1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。
他们以DeepSeek AI的名义发表了论文《Fire-Flyer AI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。
Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100 GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的优势。
这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。
而如此重视软硬件协同的成果,就是以Llama 3 405B的1/11算力,训练出性能更高的DeepSeek-v3了。
![](http://n.sinaimg.cn/spider20250104/121/w660h261/20250104/5461-954a0626aec91ed8aacb8e73a40a221e.jpg)
最后,我们还发现DeepSeek开源项目中有一个特别的存在,不是语言模型相关工作,却是3D生成相关。
这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。
![](http://n.sinaimg.cn/spider20250104/213/w660h353/20250104/b4d3-8edb73384e0b4e5ddc963c645c1e3007.jpg)
像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑
他在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。
![](http://n.sinaimg.cn/spider20250104/153/w660h293/20250104/422b-1700a2f2e9cdb011c1fb22042aa6314a.jpg)
看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。
这难免让人想起AI界另一家不可忽视的力量,没错就是OpenAI
同样的用人不看经验,本科生、辍学生只要有能力照样招进来。
同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。
同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。
DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。
[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw
[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A
[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
男子用DeepSeek买彩票中奖引热议,网友:倒亏5块钱!中国体彩:再强大的AI也无法预测中奖号码! 收起男子用DeepSeek买彩票中奖引热议,网友:倒亏5块钱!中国体彩:再强大的AI也无法预测中奖号码!
- 2025年02月12日
- 13:29
- APP专享
- 扒圈小记
4,598
春晚人形机器人开售即下架?宇树科技回应
- 2025年02月13日
- 02:51
- APP专享
- 扒圈小记
1,767
43岁女子酒吧找00后男模,3个月花光450万公款!被抓后她说……
- 2025年02月13日
- 06:27
- APP专享
- 北京时间
1,728
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 13:53:41
1、据网络平台数据,电影《哪吒之魔童闹海》总票房(含预售)已达到100亿元,成为中国影史上首部票房达到100亿元的电影。2、阿里巴巴联合创始人、董事局主席蔡崇信确认阿里与苹果合作,此前有报道称,苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。据The Information报道,苹果仍继续与百度合作在中国为iPhone开发AI功能,以此分散风险。3、央行发布货币政策执行报告称,下一阶段,实施好适度宽松的货币政策。根据国内外经济金融形势和金融市场运行情况 择机调整优化政策力度和节奏。4、上海市发改委发布消息,延续实施免费申领新能源汽车牌照额度政策到2025年底,大力促进汽车更新消费。5、国家发改委郑栅洁表示,加力扩围实施“两新”政策,重点支持企业更新高端化、绿色化、智能化设备,扩大消费品以旧换新范围。6、7天5板光线传媒(sz300251):出品、发行的影片《哪吒之魔童闹海》正在热映中。7连板梦网科技(sz002123):公司与DeepSeek系统的开发、应用等核心技术无关。中国电信(sh601728):2月20日占公司总股本的62.7%的限售股锁定期届满并上市流通。7连板杭钢股份(sh600126):算力业务占比极小 不涉及算力核心技术的研发等。 -
趋势领涨今天 13:47:03
A股跌了一天,盘后央妈就发声呵护了:1、实施好适度宽松的货币政策,保持流动性充裕;2、把促进物价合理回升作为把握货币政策的重要考量。现在重点是央行什么时候降准?因为美联储降息预期降低,央行近期降准的概率不大! -
趋势领涨今天 11:35:14
【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 11:34:23
华友钴业(sh603799)公告称,公司控股股东华友控股拟自本公告披露之日起1年内,通过上海证券交易所交易系统以集中竞价交易方式增持公司A股股份,增持总金额不低于人民币3亿元,不超过人民币6亿元。增持计划不触及要约收购,不会导致公司控股股东及实际控制人发生变化。 -
趋势领涨今天 10:36:30
【天成自控(sh603085):与广东高域签订战略合作协议 围绕eVTOL等方面开展战略合作】天成自控(sh603085)公告称,公司控股子公司广东天成与广东高域签订《战略合作协议》,双方将基于各自优势资源,共同围绕电动垂直起降飞行器(eVTOL)零部件及材料在技术研发和产品量产等方面开展战略合作。 -
数字江恩今天 09:49:26
最后,这里的c延伸,哪怕延伸也是末端了。不跌破支撑,还可以有时间,但今日高点之上的空间并不大。要控制仓位,而不是肆意重仓了。 -
数字江恩今天 09:49:21
图上的红线,是绿色方框震荡中最后一个低点,和绿色方框最低点,构成了回踩的两道防线。若不跌破红线则表示震荡很强,反之跌破绿色方框最低点则代表昨日拉高是诱多。明日核心是防御,只要回踩不跌破支撑位,那么震荡后下周还要再起一轮。 -
数字江恩今天 09:49:10
昨日已经明确了,拉起为延伸结构,延伸结构主要是看支撑,这里便看1分钟图。图上的绿色方框是之前3300-3330的主体震荡区间,昨日尾盘拉起来之后,今天构造了1分钟级别的顶背离,这也是尾盘下跌的原因。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:48:59
板块来看,今天出现了非常明显的变化。前期强势的deepseek概念、机器人(sz300024)概念今日都出现了较为明显的回踩,部分高位股还跌幅较大。而低位的传媒、酿酒、农林牧渔、地产建筑建材、金融却轮番上涨,但能坚持全天的,也就是传媒、酿酒和农林牧渔。 -
数字江恩今天 09:48:53
A股两市今日成交7058 + 11140 = 18198 亿人民币,相比昨日放量明显。大盘窄幅横盘震荡直至尾盘略微新高后,快速杀跌,收跌14个点。个股方面,只有约20%的个股红盘,但大幅下跌个股家数不多。