AI世界从来不只是巨头的独角戏。来自中国、成立仅一年半的人工智能创业公司深度求索(下称“DeepSeek”),使用2048颗英伟达H800 GPU,用时短短两个月,训练出了6710亿参数的开源大模型DeepSeek-V3,直接赶超美国AI巨头OpenAI投入超百倍的顶级模型GPT-4o。
“美国人在休息,中国人在奋斗。”硅谷AI数据标注独角兽企业Scale.ai的创始人Alexandr Wang感慨,DeepSeek正以更低的成本、更快的速度和更强大的战斗力实现了追赶。
DeepSeek不仅给沉浸于圣诞假期的硅谷AI研究者和开发者带去了震撼,这家坐落在杭州的初创公司,还激发国内不少人前来“朝圣”。
一位接近DeepSeek管理层的人士透露,过去两周,受DeepSeek-V3全球热度影响,有来自北京市、浙江省的政府官员约见DeepSeek创始人梁文锋,这些都是“推不掉的事情”;面对更多的见面邀约,梁文锋选择在“社恐”外衣下主动把自己“藏”起来。目前,各类企业提出与DeepSeek建联、交流的诉求后,DeepSeek及其母公司幻方量化的管理层基本是“隐身”处理。
采访期间,经济观察网也尝试与DeepSeek官方以及其母公司董事总经理联系,未获回复。
上述接近DeepSeek管理层的人士说,梁文锋把精力投入到模型产品的迭代中,除了潜心研发外,减少曝光还有另一重考量:要保护好DeepSeek这支年轻的技术队伍。
要知道,就在DeepSeek-V3发布第二天,小米科技创始人雷军亲自以千万年薪挖走DeepSeek罗福莉的消息便冲上热搜。
一支东方力量
从浙江大学电子工程系人工智能方向毕业后,梁文锋曾进入“不对口”的金融科技领域,从事私募基金、量化投资多年。
“他一直坚信AI会改变世界。”前述接近DeepSeek管理层的人士称,梁文锋对AGI有理想情怀,在国内处于大模型创新风口时分身入局,于2023年7月创立了DeepSeek。
DeepSeek-V3模型发布即开源。在长达53页的论文中坦诚披露了模型训练的技术细节。
DeepSeek仅花费557.6万美元,就完成了这一多模态、推理模型的总训练,模型的训练成本是其他全球知名大模型的1/20,甚至1/100。
H800是英伟达针对中国市场特供的低配版GPU,芯片性能受限下,DeepSeek仍实现了超大规模参数的模型训练。OpenAI创始成员Karpathy在社交媒体上点评,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。
DeepSeek的开源模型震动硅谷,国内相关领域人士试图挖掘这个AI创业团队的神秘班底。
2023年本科毕业的小陆曾经历6轮面试获得了DeepSeek人力资源部的入职资格,尽管后来她选择出国深造,放弃了入职,但回忆起这家初创公司的面试风格,她的感受是,从Passion(热情)出发去做一个不可能完成的任务。
小陆候选的岗位涉及招聘AI人才,她了解到,这个团队最大的特点是年轻化,且在当时就有大批清华大学、北京大学的应届生放弃去斯坦福、MIT跟着大牛导师读博的机会选择加入DeepSeek。
“只招1%的年轻天才,做99%的公司都做不到的事情。”小陆觉得,DeepSeek在组织形态上是最像OpenAI的一家中国AI公司。
但与DeepSeek-V3低成本训练一样令人惊叹的是,DeepSeek的员工规模不及OpenAI的1/5,百人出头的公司中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人,主要在北京分部,其余30多人在杭州总部,多为前端、产品以及商务人员。
1%的年轻天才
从DeepSeek发布的论文贡献者名单看,他们多是清华、北大、北邮、北航等高校计算机相关专业应届生、博士在读生,少部分工作经验短至两三年的技术人员,也是拥有国内教育背景的高材生。
梁文锋是DeepSeek这支年轻队伍中少有的80后,他会亲自带队研发产品,有时还会亲自写代码,与同事一起攻克AI大模型的技术难题。
在招人准则上,梁文锋与OpenAI的创始人奥特曼有相似之处,不在学历、履历上设定门槛,更看重一个人的工程能力。
DeepSeek人力资源部门的一位工作人员在多个平台发布招聘需求,她会在简单介绍JD(Job Descripion,职位描述)后补充这样一句:“不希望用JD限制人选在公司发展的空间。”她介绍,DeepSeek招募人才着重考察的是人选的素质和对大模型的热爱。
虽然脱胎于量化私募基金巨头,但DeepSeek的自我认知是一家小公司,这让它不需要像科技大厂那样,对一个创新想法反反复复推演、论证,“搞来搞去,一大帮人重复做一件事。”上述接近DeepSeek管理层的人士介绍,扁平化管理模式下的DeepSeek,所有的研究人员直接向梁文锋汇报,创始人给予研究和开发团队充分尊重,谁有好想法,尽管推进去做。
这一点也在前述人力资源工作人员处得到印证,她说,公司在资源配给方面,可以做到万卡GPU训练集群,无需申请,不限使用。
DeepSeek管理风格的背后,是梁文锋对寻找更多技术知音的迫切。
DeepSeek-V2模型的关键开发者之一罗福莉,早在北京大学研究生阶段就在AI领域的顶级国际会议ACL(国际计算语言学协会年会)上发表了8篇论文,其中2篇是一作。截至目前,罗福莉的研究论文在谷歌学术上被引用次数已超2000次。
一位在国产模型“五虎”之一的AI企业进行产业生态研究的人士告诉记者,任何一家模型厂商都处在一个科研驱动的阶段,招聘人才必然看学术与工程开发的能力,看顶刊论文,毕竟招聘进来是要搞科研的。
在该人士看来,DeepSeek研究团队的高光标签并非本土化,而是“研究”。年轻的顶尖人才再配备万卡资源,这样的公式让DeepSeek这家创业公司走到今天甚至一鸣惊人并不令人意外,反而衬托出行业的灰暗面。
接受记者采访时,上述模型厂商的生态研究人士以某明星AI公司为例说,即便被资本捧上了天,但身处镁光灯下,很少人去看它成立至今才发布了几款模型,“目前已经有多家厂商很长时间没有发布新模型了,他们中的大多数并非真正重视研究创新这件事”。
创业公司习惯借助技术大牛加入团队来撑门面,而像DeepSeek这样的公司,仅有一部分是像罗福莉这样从母公司转岗加入DeepSeek,在扩充人才梯队时,梁文锋特别要求人力资源方面不去百度、阿里、字节等大厂挖角技术大牛。
上述接近DeepSeek管理层的人士理解这种做法,任何一家大厂的技术大牛,多会在离开时带走一些嫡系,这样一群带有大厂思维模式的人进入创业团队,难免会形成“山头”,严重时还会损害公司的创业氛围,影响产品的开发节奏。
既不靠母公司砸钱吸纳大牛,又想吸引更多热情投入研究的年轻技术人,不是一件容易的事。
于是,梁文锋走到台前接受媒体采访,对外发声有两个阶段:一是DeepSeek成立初期,他需要告诉所有人,DeepSeek的目标是聚焦AGI展开研究、探索;二是DeepSeek-V2发布时,它点燃了国内大模型价格战的导火索,时值2024年年中,梁文锋在接受36氪采访时称,DeepSeek无意成为行业鲇鱼,低价背后是希望算力普惠,以及公司的愿景仍是AGI。
上述接近DeepSeek管理层的人士告诉记者,在团队招募人才的关键期以及行业发展的转折点,梁文锋会主动出来,但他反复强调的内容都与商业化目的无关,包括梁文锋在内的管理层担忧的是,团队核心成员被竞争者持续挖角,技术创造力流失。
“DeepSeek眼下没有商业化,也没有其他新产品发布,对手筹谋更多的就是挖人。”上述生态研究人士了解到,其公司正在通过猎头挖人。
当DeepSeek爆火后,那些出现在技术论文中的贡献者们,成为不少厂商觊觎的“生产力”。
模型厂商的异类
AI大模型在国内爆火后,行业里流行这样一个说法,中国持有高性能GPU最多的机构不是AI公司,而是幻方量化。卡多、不差钱的幻方量化,在背后支撑DeepSeek展开模型研究,路线则是坚持开源,并不急于部署商业化应用。
与不少模型厂商既要开发基础模型又要AI应用变现的逻辑不同,DeepSeek一度被视为模型厂商中的异类。
记者与多位DeepSeek内部人士交流后,发现这家AI公司有很多差异化表现:不做产品运营,也不进行广告投流,更没有在社交媒体向C端用户推出任何讲解Prompt(AI模型提示词)模板等。
上述接近管理层的人士透露,眼下DeepSeek虽然会向开发者卖低价的API,但像其他友商那样面向开发者搞各种项目,它完全没兴趣,几乎模型相关的核心研究人员都在专注于产品迭代,以及另外一个“产品”——技术研究论文。
腾讯前高级研究员、北京大学人工智能方向博士后卢菁,近两年一直专注于对国内外知名大模型展开深度研究,将其中的技术创新点通过社交媒体平台传播给国内外的技术爱好者们。
卢菁在1月11日晚通过视频直播,就DeepSeek-V3核心技术进行第二期讲解。他提出,DeepSeek并非突然爆火,它其实承接了上一代模型版本中的很多创新,相关模型架构、算法创新经过迭代验证,震动行业也有其必然性。在他看来,DeepSeek更关键的动作是在模型工程细节上的优化,“它把已有的东西,做到极致,成本降到了最低”。
很多人是在DeepSeek-V3面世后才对这一模型背后的团队、技术核心产生巨大的好奇,实际上,DeepSeek的团队早就引起卢菁这类业内专家的默默关注,直到DeepSeek-V2以多头潜在注意力机制(MLA)架构创新,在硅谷引发震动后,这一公司才真正在AI领域出圈。
在卢菁看来,DeepSeek团队在做的是一个精细活,需要的是一线真正干活的技术工程师,去将模型推理架构、算法等细节优化,从而实现低成本训练。
低成本训练并不代表模型效果差。DeepSeek官方指出,DeepSeek-V3模型多项评测成绩超越了当前全球顶级的开源模型Llama-3,就连国外独立测评机构Artificial Analysis测试后,也感叹DeepSeek-V3已经超越了迄今为止所有开源模型。
卢菁还在模型论文中看到,DeepSeek-V3在知识类任务上表现优异,已经接近当前表现最好的闭源模型,即OpenAI发布的GPT-4o以及Anthropic公司发布的Claude-3.5-Sonnet。
陈天楚在浙江大学计算机系统结构实验室从事大模型相关研究工作,DeepSeek-V3发布后,虽然这一模型的参数超出了开源社区一般模型爱好者的选择,但他在相关测试中着重对模型的代码能力加以考察,发现DeepSeek-V3已经达到了国外先进模型的水平。
从DeepSeek官网可以看到,DeepSeek-V3模型部署的价格,与全球其他同级别的模型价格相比更为低廉。这一模型因具有性价比,而被外界赋予了DeepSeek“AI界拼多多”的称号。
模型产品看似以价格取胜,但上述接近管理层的人士强调,DeepSeek至今没有面向C端的应用开发,也未向B端企业级发展商业化,目前还是在模型探索与完善的阶段。
DeepSeek在年轻创造力的驱动下,更强调专注于研究。上述接近DeepSeek管理层的人士介绍,梁文锋已经以个人名义投资了一些未来能在DeepSeek的模型基础上长起来的下游AI应用企业项目。这可以理解为,梁文锋在为DeepSeek未来能形成一个小生态提早铺垫,慢慢布局。
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 03:02:28
根据洛图科技最新发布的《全球显示器市场品牌整机出货月度追踪》报告数据显示,2024年全年,全球显示器市场品牌整机的出货量为1.27亿台,与2023年相比上涨1.5%。戴尔在2024年的全球出货量为23.7百万台,位居当年出货量第一,同比微幅上涨0.2%。预测2025年全球显示器出货量仍然保持稳定的增长态势,达到1.29亿台,涨幅约为2%。 -
趋势领涨今天 03:02:21
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:47:15
【春运第五天全社会跨区域人员流动量2.07亿人次】,昨天是春运第五天。记者从2025年综合运输春运工作专班了解到,昨天(18日),全社会跨区域人员流动量达2.07亿人次。其中,全国铁路发送旅客1355万人次,加开旅客列车821列。全国铁路今天开始发售2月2日,也就是农历大年初五的车票。此外,昨天全国公路人员流动量为1.91亿人次,民航客运量226万人次,水路客运量63万人次,环比均呈现增长态势。 -
趋势领涨今天 00:32:43
另外,昨天还有两条重磅:一是贝莱德发声:A股市场2025年有更多投资机会贝莱德集团在上海举办了一场2025年投资展望分享会,贝莱德中国区负责人表示,贝莱德看好A股市场的长期机遇,今年会推出更丰富的投资产品,满足多样化的投资需求。2025年最看好A股的投资机会。主要看好三个方向:第一,看好科技,因为科技是全球浪潮;第二,从确定性角度,看好红利类资产;第三,看好消费,看好促消费政策带来的影响。对贝莱德这三个方向,我们还是非常赞同的,科技、消费加红利股。今年将是消费刺激大年,消费板块经过了长时间调整,比如白酒、医药等,也确实该启动一下了。二是与中国股票挂钩的ETF看涨期权受到追捧周五,交易员抢购与中国股指挂钩的交易所交易基金(ETF)的看涨期权。投资者买进了使其有权在下周结束之前以31-32美元的价格购买约400万股安硕中国大盘股ETF的看涨期权,也买入了一些2月份到期的期权。总之,周五电话之后,市场看多声音一片,我们上周也多次提示,都在等待20号靴子落地再抄底,都在等待的事情,你们觉得市场会给你机会吗? -
趋势领涨今天 00:32:35
周末最引人注目的消息当然是TikTok的消息,今天是美国政府强行要求短视频社交平台TikTok出售或面临被禁的最后期限。当地时间1月17日,美国最高法院裁定支持短视频社交媒体平台TikTok在美禁令。TikTok的应用程序最早将于19日在美国下架。去年4月24日,板凳签署法案,要求TikTok母公司字节跳动在270天内将TikTok出售给非中国企业,否则这款应用程序将在美国被禁用。TikTok在美国有约1.7亿用户,这是一个非常庞大的用户群体,这些用户已经对TikTok产生了依赖。现在如果板凳不执法,如果美国的服务提供商继续支持tiktok的运营那就是违法的,虽然板凳说现在不执法,老特也可以暂时不执法,但如果相关磋商没成功,联邦政府执法罚这些服务商,将是巨额罚款。每个用户5000美元,1.7亿用户需要多少钱?昨晚最新消息,老特“极有可能”在就职后给予TikTok90天的禁令延缓执行期限。这个90天的禁令延缓期就是给他们协商的,接下来只有国会再通过法律,暂停或推翻禁令。否则,TikTok还是要被下架,字节跳动一直表示,不会卖tikTok。TikTok每次消息,当然影响最大的就是小红书,小红书就成为美国用户的首选。当然,TikTok的用户群体不会全部转化为小红书的流量,但肯定会有庞大的用户群体转移过来。前期小红书概念经过了连续大涨,龙头壹网壹创(sz300792)、引力传媒(sh603598)、来伊份(sh603777)等都是连续涨停,但周五基本都是跌停,下周一能否再次出现反包,就看老特明天的讲话了,老特是受益于TikTok的,TikTok在他的竞选当中功不可没,所以,他是不会让TikTok随意下架的,那就说明了大家炒作小红书需要谨慎,当然急涨急跌随时会出现。 -
趋势领涨今天 00:32:09
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-01-18 14:00:39
本周末,tiktok依然牵动大家的神经。如果拜登不会执行禁令,是不是tiktok就可以继续运营?答案是否定的。首先,针对tiktok的禁令是美国国会通过的法律,所以即使拜登政府不执法,如果美国的服务提供商继续支持tiktok的运营就是违法的,虽然拜登政府说现在不执法,特朗普也可以暂时不执法,但如果相关磋商没成功,联邦政府执法罚这些服务商,将是巨额罚款。每个用户5000美元,现在tiktok在美国1.7亿用户。 所以解铃还须系铃人,接下来只有国会再通过法律,暂停或推翻禁令。 -
趋势领涨2025-01-18 08:27:19
外资巨头展望2025年中国市场: 看好宏观经济韧性 股债行情均可期。近日,全球资管巨头贝莱德、富达、瑞银等机构陆续发布2025年中国市场展望。总体来说,上述外资机构对2025年中国宏观经济和股市表现均持较为乐观的态度。其中,贝莱德和富达不约而同地认为,受到政策托底和流动性充裕等因素影响,2025年中国股市、债市行情均可期。 -
趋势领涨2025-01-18 07:30:43
中国贸促会昨天举办发布会,对外发布了第三届中国国际供应链促进博览会的筹备工作情况。第三届链博会的各项工作正在有序推进,目前已有近70家中外知名企业签约参展。第三届链博会产业链供应链国际合作的特色更加突出。同时,第三届链博会海外路演活动也即将于本月启动,首站将设在泰国。 -
趋势领涨2025-01-18 04:12:26
深信服(sz300454)(300454)在互动平台回复投资者称,公司作为有限合伙人参与设立的股权投资基金广州琥珀安云二期创业投资合伙企业于2024年投资了杭州宇树科技有限公司。截至目前,琥珀安云基金持有宇树科技0.6279%的股权。琥珀安云基金与公司相互独立,其对外投资决策由该基金的投委会决定。