“DeepSeek在基座大模型上做出的突破,是天才级别的。”
最近,国产大模型公司深度求索(DeepSeek)引发的舆论震动,让今年春节成为“最有AI味的年”。谈到DeepSeek旗下标志性大模型DeepSeek-R1,多位业内人士向澎湃新闻记者表达了高度赞赏。
![视觉中国 图](http://n.sinaimg.cn/sinakd20250129s/117/w2048h1269/20250129/7877-12c8b64fa42e061b7dbf7177b78e649e.jpg)
1月28日,大洋彼岸的人工智能巨头Open AI CEO山姆·奥特曼(Sam Altman)发文回应DeepSeek带来的挑战:“DeepSeek推出的R1令人影响深刻,我们当然会推出更好的模型,有新的竞争对手也令人振奋。”
国内某Top2 AI初创企业也对记者坦言,他们感受到了同行带来的压力:“后续我们会加快产品研发的角度。”
与之对比的是在产品上的快速迭代:除夕当天,DeepSeek悄无声息地发布开源多模态模型Janus-Pro。此前1月27日早间,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT。
“多模态考验的是对人类世界和环境的认知,相信DeepSeek在此刻发布多模态大模型,一定有自己的信心和底气。”1月28日,360创始人周鸿祎告诉澎湃新闻记者,“中国大模型技术复仇者联盟战队里一定有DeepSeek的一份,因为这家公司和它的创始人非常低调,他们技术能力和未来前景被市场严重低估了。”
“现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经刹不住车了。”周鸿祎表示。
AI军备竞赛已进入深水期,曾有观点认为,在字节、阿里、腾讯等大厂包围下,AI创业公司将面临洗牌,难逃被并购的命运,而杀出重围的却是似乎“名不见经传”的DeepSeek。DeepSeek走红的秘密是什么,为国内大模型行业带来哪些启示?
DeepSeek优秀在哪?
“DeepSeek公司高层明确对商业化不感兴趣,只想做技术研究,这样的高度一般人达不到。”
有了解DeepSeek人士向记者透露,自己曾经面试过一些AI领域的人才,最后拒绝了自己的公司,去了DeepSeek,理由是他们科研氛围好,是一个真正做事的团队。
“从薪资来看,其实他们只是业内中流水平,高,但并不是最高的。”他向记者坦言,“如果说人才密度,可能还比不上头部大厂。并不是大厂的人不聪明,而是大厂的聪明人花了太多精力在技术之外。大厂虽然薪资高,但是内部斗争也多,想要真正专心做事,反而不如这样的技术公司纯粹。”
尽管在外界眼中,DeepSeek仿佛是一夜爆红,但此前早有多项成就引发行业关注。2024年,在大模型行业率先发起价格战的正是DeepSeek,但并未引起外界关注,此后智谱、字节跳动等跟进,才引发整个行业的降价潮流。
![视觉中国 图](http://n.sinaimg.cn/sinakd20250129s/15/w1024h591/20250129/22e2-2f943ed9216e9538dba6b777890f09f2.jpg)
当时的DeepSeek,还未真正让他人看到它的实力。2024年,智谱AI COO张帆在接受采访时曾开玩笑说:“我们是主流厂商中第一个降价的。”当时有人提醒,首个降价的厂商其实是DeepSeek,张帆表示:“我说的是主流厂商”。
DeepSeek最引人瞩目的,是其显著降低了大模型开发成本。1月20日,DeepSeek正式发布推理模型R1,其API(编程接口)服务定价为每百万输入tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。DeepSeek的定价约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戏称为AI界的“拼多多”,实现高效低价背后的原因是什么?国内某知名AI公司董事长向记者解释称,这主要得益于DS-V3的多项技术创新。首先,DeepSeek采用MoE架构(Mixture of Experts,混合专家模型),通过将大模型变成多个稀疏的专家小模型,并通过多个模型聚合来达到和传统大模型相当的能力,有效降低了计算成本。
其次,DS-V3在训练方法上进行了重要创新。采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化加上训练的一次成功,使得V3的训练成本降至约550万美元。
而在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理过程中进行自我反思。
“DeepSeek R1的成功意味着,如果基础模型能力够强,在强化学习过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1后惊呼AGI竟然离我们如此之近的原因:因为R1证明了能力足够强的模型是可以不依靠人类自己进化的,尽管现阶段的reward还是需要标签。”上述人士表示。
《麻省理工科技评论》分析称,DeepSeek R1 采用类似ChatGPT o1使用的“思维链”方法,它可以通过逐步处理查询来解决问题。这可能是美国对华高端AI芯片出口管制带来的意外结果,迫使中国的初创企业“优先考虑效率”。
有意思的是,如果问DeepSeek自己R1模型相比OpenAI有哪些特点,DeepSeek的回答是,创新点可能在“注意力机制”和“参数效率”,R1在处理长文本时更聚焦关键部分(比如法律合同中的条款),减少计算量,类似“读书时用荧光笔划重点,只反复看关键段落”。在参数效率方面,用类似MoE(混合专家系统)的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果(类似“看病时分科室挂号,心脏问题找心内科专家,不用让全科医生从头学到尾”)
DeepSeek自我评价道,“DeepSeek像一家精品店,在特定领域更专精;OpenAI像大型超市,啥都有但价格高。”
为什么是DeepSeek?
谈到DeepSeek,离不开创始人梁文锋。这位在外人眼中朴素、低调的“85后”企业家,最近也站在了媒体的聚光灯下。
根据公开报道,梁文锋从小就表露在数学领域的天赋和兴趣,曾是高考状元,在浙大求学期间就与同学一起积累市场行情数据和探索全自动量化交易。
2008年金融危机期间,他带领团队使用机器学习等技术探索全自动量化交易。2015年创立对冲基金“幻方量化”,2021年资产管理规模突破千亿大关。2023年创办深度求索DeepSeek,专注于通用人工智能(AGI)的突破。
“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”在公开采访中,梁文锋本人曾经如此谈论他心中的AGI(通用人工智能)。
在另一段采访中,他提到,中国AI不可能永远处在跟随的位置,“我们经常说中国 AI 和美国有一两年差距,但真实的Gap(差距)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果,“中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”
梁文锋不打无准备之仗。幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。
梁文锋曾在采访中表示,最早的一张卡到1万张卡,这个过程是逐步发生的,而这里面主要是好奇心驱动,“对AI能力边界的好奇”。
“DeepSeek最令美国科技圈震惊的是,在开源大模型上做到了突破性的领先。”昆仑万维(43.210, 2.06, 5.01%)(维权)CEO方汉向澎湃新闻记者评论称,“以往美国在基座大模型上处于绝对优势,例如ChatGPT,后续的大模型都是基于ChatGPT进行改进和优化。此前,在开源大模型领域最领先的是Meta的Llama系列,但如今DeepSeek彻底超越了Llama,这意味着,后续的行业大模型可能将基于DeepSeek进行深度开发。”
“中国可能取代美国在基座大模型的统治地位,这是美国十分担忧的。”方汉坦言。
美国AI初创公司Perplexity首席执行官在接受采访时认为,DeepSeek的模型堪称“疯狂”。“这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。”
据美国全国广播公司(NBC)报道,美国总统特朗普当地时间1月27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的AI技术给美国科技企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。
“DeepSeek效应”如何发酵
DeepSeek的成功,暴击AI硬件龙头英伟达。
当地时间1月27日,英伟达(Nasdaq:NVDA)股价暴跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。
英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。
![视觉中国 图](http://n.sinaimg.cn/sinakd20250129s/52/w1024h628/20250129/627e-4f52687fce8d646c619c270696f62e86.jpg)
DeepSeek在国际范围内的成功,也为中国AI初创企业带来“DeepSeek效应”。
“我对AGI的判断,是一场马拉松。目前技术仍然还没有收敛,算力是一个重要的影响因素。”国内AI头部初创企业、面壁智能CEO李大海告诉记者。
他介绍,就像DeepSeek一样,面壁也在旗下开发的MiniCPM-S系列引入自研稀疏化方案,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将Llama、MiniCPM 稀疏度提升至接近 90%,并且也能够在保持模型原有水平的基础上,有效降低模型推理的开销。
“DeepSeek的成功,说明中国人工智能企业已进入世界第一梯队。尽管我们要承认中美在人工智能上确实有原创性的差距,但是R1的发布将会很大程度影响这个行业的发展,2025年中国在AI领域的创新相当值得期待。”资深AI从业者、猎豹移动董事长兼CEO傅盛表示。
而方汉认为,要谈中国在AI上的能力完全赶超美国,还为时尚早,但是DeepSeek的表现,说明中国AI在发展空间上确实为人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,“在AI领域,中国和美国的优势相比其他国家是巨大的。”
“如果要双方真正平起平坐地竞争,还是需要解决算力卡脖子问题。”方汉坦言,“但是我预计将在2-3年内彻底解决这个问题。相信在不久之后,能看到两个国家真正实现你追我赶、公平竞争。”
责任编辑:常福强
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](https://tva4.sinaimg.cn/crop.240.2.1194.1194.50/8ed8d853gw1e9t6xgv832j218g0xcdsy.jpg)
![](https://tvax1.sinaimg.cn/crop.0.0.960.960.50/006S7tGEly8fn01xisbnfj30qo0qo74w.jpg)
![](https://tva3.sinaimg.cn/crop.0.0.180.180.50/62bbe474jw1e8qgp5bmzyj2050050aa8.jpg)
![[doge] [doge]](https://comment.sinaimg.cn/emoji/default/face_sina_21.png)
![](https://tvax4.sinaimg.cn/crop.0.0.1000.1000.50/006TU3Cply8hwsovq11o4j30rs0rsdgu.jpg)
![](https://tvax1.sinaimg.cn/crop.0.0.1023.1023.50/008dISlXly8hrzhlz86t7j30sg0sfgoq.jpg)
![](https://tvax2.sinaimg.cn/crop.0.0.1080.1080.50/0083iXZWly8hvv9koj35jj30u00u0jrl.jpg)
APP专享直播
热门推荐
痛心!李梦豪壮烈牺牲,年仅26岁 收起痛心!李梦豪壮烈牺牲,年仅26岁
- 2025年02月14日
- 08:20
- APP专享
- 扒圈小记
24,626
事发上海浦东机场 海关截获世界上毒性最强活体毒蛙!
- 2025年02月14日
- 02:27
- APP专享
- 扒圈小记
2,375
特朗普又来:台湾抢走了美国的芯片生意,得拿回来
- 2025年02月14日
- 01:56
- APP专享
- 北京时间
1,338
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势起航今天 15:27:03
【微信搜索接入DeepSeek-R1 目前处于灰度测试阶段】微信搜一搜目前正在灰度测试“AI搜索”功能,部分用户进入微信搜索页面后,可点击由DeepSeek-R1提供的“深度思考”选项。 (界面) -
趋势起航今天 14:27:02
【印尼总统宣布2025年将启动15个大型下游化项目 】印度尼西亚总统、大印尼行动党总主席普拉博沃15日在该党成立17周年庆祝活动上宣布,政府将于今年年内启动15个总价值数十亿美元的大型下游化项目。普拉博沃在讲话中表示,下游化作为内阁核心政策之一,旨在通过优化海洋等自然资源的开发利用,提高利用这些资源生产的商品的附加值,从而为民众创造更多就业机会,推动经济公平与民生福祉。 -
趋势起航今天 13:57:01
【U20国足5-2击败吉尔吉斯斯坦队 两连胜提前小组出线】2025年U20男足亚洲杯A组第二轮结束争夺,东道主中国U20国家队5-2击败吉尔吉斯斯坦U20国家队,取得两连胜的中国队提前一轮从A组出线。2月18日19:30,中国队将与同样两战全胜的澳大利亚队直接对话,争夺A组头名。 -
趋势起航今天 13:27:01
【巴总统阿巴斯:坚决反对任何驱逐巴勒斯坦人的计划】巴勒斯坦总统阿巴斯在埃塞俄比亚出席第38届非盟峰会时发表讲话称,巴勒斯坦坚决反对任何驱逐巴勒斯坦人的计划,无论是在加沙地带、约旦河西岸还是东耶路撒冷。阿巴斯强调,任何试图强迫巴勒斯坦人民离开家园的方案,都是对国际法和联合国决议的公然违反,巴勒斯坦人民不会接受被驱逐,也不会放弃对自己土地的合法权利。巴勒斯坦的未来必须建立在人民坚守家园的基础上,而不是在流亡和流离失所中。 -
趋势起航今天 12:57:00
【美国15家发行人的投资级债券发行量下降至176亿美元】截至2月14日的一周内,新债券发行量降至176亿美元,较前一周30笔交易中的485亿美元下降64%。本月迄今为止,新发行债券供应量达到661亿美元,而一个月前同期为1026亿美元;年初至今的发行量为2677亿美元,而去年同期为2897亿美元。最大交易:礼来公司(Eli Lilly & Co)发行65亿美元,加拿大贝尔公司(BCE Inc)发行22.5亿美元。 -
趋势起航今天 12:26:59
【琼州海峡大雾影响减弱 海口“三港”复运】海口市交通运输和港航管理局发布通告:因琼州海峡大雾影响减弱,海口新海港、秀英港和铁路南港于2025年2月15日18时25分恢复运输。复运后,港口将优先疏运停航前已在港内待渡的绿通货车和小客车,预计需要1个小时恢复正常秩序,请出岛司机旅客避开疏运高峰延后到港。停运时段船票延后有效。 -
趋势起航今天 11:56:58
【黎巴嫩总统谴责机场抗议者袭击联黎部队】黎巴嫩总统奥恩谴责联黎部队副司令车队经过贝鲁特国际机场时遭到袭击,并强调“袭击者将被追究责任。”奥恩谴责14日晚在贝鲁特国际机场路发生的抗议活动,并警告不要有任何危及国家安全和稳定的企图。他密切关注当天晚上发生的纵火和暴乱事态发展。作为回应,他向黎巴嫩军队和安全部队发出指示,要求结束这些骚乱,清理所有道路,并清除街道上的障碍物。 -
趋势起航今天 11:26:57
【《哪吒2》让义乌旧货翻红热售】随着《哪吒2》电影的持续走热,在浙江义乌,几年前商户自主设计的哪吒头造型发箍、玩具火尖枪等再次热销,企业不得不提前开工,经营户也加大了备货量。在浙江义乌一家小饰品生产企业,工人们正加紧制作哪吒头造型的发箍。企业负责人说,这款产品已经销售了多年,因为《哪吒2》电影的火爆,再次成为热销款。据介绍,最近在义乌国际商贸城中热销的饰品、小商品、玩具都是五六年前开发出的,并不是《哪吒2》的衍生品,能再次销售火爆,经营户也很意外,大家正加大备货量,满足市场需求。 (央视新闻) -
趋势起航今天 10:56:57
【欧洲央行Panetta称在降息方面没有必要犹豫】欧洲央行理事会成员Fabio Panetta表示,鉴于2%的价格目标在望且通胀风险偏于下行,欧洲央行在降息方面无须犹豫。“货币政策继续对经济活动和通胀施加下行压力,在通胀接近目标、内需持续疲弱的情况下,这种影响越来越没有必要。”他周六在都灵发表讲话时说道,“在货币宽松方面不那么果断,可能导致中期内通胀过低。” -
趋势起航今天 10:26:56
【中央气象台2月15日18时继续发布大雾黄色预警】中央气象台2月15日18时继续发布大雾黄色预警:预计,2月15日夜间至16日上午,琼州海峡将有能见度不足1公里的大雾。此外,浙江中西部、江西中北部、广西东部、广东雷州半岛等地的部分地区有大雾,局地有能见度低于200米的强浓雾。