“DeepSeek在基座大模型上做出的突破,是天才级别的。”
最近,国产大模型公司深度求索(DeepSeek)引发的舆论震动,让今年春节成为“最有AI味的年”。谈到DeepSeek旗下标志性大模型DeepSeek-R1,多位业内人士向澎湃新闻记者表达了高度赞赏。

1月28日,大洋彼岸的人工智能巨头Open AI CEO山姆·奥特曼(Sam Altman)发文回应DeepSeek带来的挑战:“DeepSeek推出的R1令人影响深刻,我们当然会推出更好的模型,有新的竞争对手也令人振奋。”
国内某Top2 AI初创企业也对记者坦言,他们感受到了同行带来的压力:“后续我们会加快产品研发的角度。”
与之对比的是在产品上的快速迭代:除夕当天,DeepSeek悄无声息地发布开源多模态模型Janus-Pro。此前1月27日早间,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT。
“多模态考验的是对人类世界和环境的认知,相信DeepSeek在此刻发布多模态大模型,一定有自己的信心和底气。”1月28日,360创始人周鸿祎告诉澎湃新闻记者,“中国大模型技术复仇者联盟战队里一定有DeepSeek的一份,因为这家公司和它的创始人非常低调,他们技术能力和未来前景被市场严重低估了。”
“现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经刹不住车了。”周鸿祎表示。
AI军备竞赛已进入深水期,曾有观点认为,在字节、阿里、腾讯等大厂包围下,AI创业公司将面临洗牌,难逃被并购的命运,而杀出重围的却是似乎“名不见经传”的DeepSeek。DeepSeek走红的秘密是什么,为国内大模型行业带来哪些启示?
DeepSeek优秀在哪?
“DeepSeek公司高层明确对商业化不感兴趣,只想做技术研究,这样的高度一般人达不到。”
有了解DeepSeek人士向记者透露,自己曾经面试过一些AI领域的人才,最后拒绝了自己的公司,去了DeepSeek,理由是他们科研氛围好,是一个真正做事的团队。
“从薪资来看,其实他们只是业内中流水平,高,但并不是最高的。”他向记者坦言,“如果说人才密度,可能还比不上头部大厂。并不是大厂的人不聪明,而是大厂的聪明人花了太多精力在技术之外。大厂虽然薪资高,但是内部斗争也多,想要真正专心做事,反而不如这样的技术公司纯粹。”
尽管在外界眼中,DeepSeek仿佛是一夜爆红,但此前早有多项成就引发行业关注。2024年,在大模型行业率先发起价格战的正是DeepSeek,但并未引起外界关注,此后智谱、字节跳动等跟进,才引发整个行业的降价潮流。

当时的DeepSeek,还未真正让他人看到它的实力。2024年,智谱AI COO张帆在接受采访时曾开玩笑说:“我们是主流厂商中第一个降价的。”当时有人提醒,首个降价的厂商其实是DeepSeek,张帆表示:“我说的是主流厂商”。
DeepSeek最引人瞩目的,是其显著降低了大模型开发成本。1月20日,DeepSeek正式发布推理模型R1,其API(编程接口)服务定价为每百万输入tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。DeepSeek的定价约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戏称为AI界的“拼多多”,实现高效低价背后的原因是什么?国内某知名AI公司董事长向记者解释称,这主要得益于DS-V3的多项技术创新。首先,DeepSeek采用MoE架构(Mixture of Experts,混合专家模型),通过将大模型变成多个稀疏的专家小模型,并通过多个模型聚合来达到和传统大模型相当的能力,有效降低了计算成本。
其次,DS-V3在训练方法上进行了重要创新。采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化加上训练的一次成功,使得V3的训练成本降至约550万美元。
而在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理过程中进行自我反思。
“DeepSeek R1的成功意味着,如果基础模型能力够强,在强化学习过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1后惊呼AGI竟然离我们如此之近的原因:因为R1证明了能力足够强的模型是可以不依靠人类自己进化的,尽管现阶段的reward还是需要标签。”上述人士表示。
《麻省理工科技评论》分析称,DeepSeek R1 采用类似ChatGPT o1使用的“思维链”方法,它可以通过逐步处理查询来解决问题。这可能是美国对华高端AI芯片出口管制带来的意外结果,迫使中国的初创企业“优先考虑效率”。
有意思的是,如果问DeepSeek自己R1模型相比OpenAI有哪些特点,DeepSeek的回答是,创新点可能在“注意力机制”和“参数效率”,R1在处理长文本时更聚焦关键部分(比如法律合同中的条款),减少计算量,类似“读书时用荧光笔划重点,只反复看关键段落”。在参数效率方面,用类似MoE(混合专家系统)的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果(类似“看病时分科室挂号,心脏问题找心内科专家,不用让全科医生从头学到尾”)
DeepSeek自我评价道,“DeepSeek像一家精品店,在特定领域更专精;OpenAI像大型超市,啥都有但价格高。”
为什么是DeepSeek?
谈到DeepSeek,离不开创始人梁文锋。这位在外人眼中朴素、低调的“85后”企业家,最近也站在了媒体的聚光灯下。
根据公开报道,梁文锋从小就表露在数学领域的天赋和兴趣,曾是高考状元,在浙大求学期间就与同学一起积累市场行情数据和探索全自动量化交易。
2008年金融危机期间,他带领团队使用机器学习等技术探索全自动量化交易。2015年创立对冲基金“幻方量化”,2021年资产管理规模突破千亿大关。2023年创办深度求索DeepSeek,专注于通用人工智能(AGI)的突破。
“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”在公开采访中,梁文锋本人曾经如此谈论他心中的AGI(通用人工智能)。
在另一段采访中,他提到,中国AI不可能永远处在跟随的位置,“我们经常说中国 AI 和美国有一两年差距,但真实的Gap(差距)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果,“中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”
梁文锋不打无准备之仗。幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。
梁文锋曾在采访中表示,最早的一张卡到1万张卡,这个过程是逐步发生的,而这里面主要是好奇心驱动,“对AI能力边界的好奇”。
“DeepSeek最令美国科技圈震惊的是,在开源大模型上做到了突破性的领先。”昆仑万维(42.380, 0.94, 2.27%)(维权)CEO方汉向澎湃新闻记者评论称,“以往美国在基座大模型上处于绝对优势,例如ChatGPT,后续的大模型都是基于ChatGPT进行改进和优化。此前,在开源大模型领域最领先的是Meta的Llama系列,但如今DeepSeek彻底超越了Llama,这意味着,后续的行业大模型可能将基于DeepSeek进行深度开发。”
“中国可能取代美国在基座大模型的统治地位,这是美国十分担忧的。”方汉坦言。
美国AI初创公司Perplexity首席执行官在接受采访时认为,DeepSeek的模型堪称“疯狂”。“这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。”
据美国全国广播公司(NBC)报道,美国总统特朗普当地时间1月27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的AI技术给美国科技企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。
“DeepSeek效应”如何发酵
DeepSeek的成功,暴击AI硬件龙头英伟达。
当地时间1月27日,英伟达(Nasdaq:NVDA)股价暴跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。
英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。

DeepSeek在国际范围内的成功,也为中国AI初创企业带来“DeepSeek效应”。
“我对AGI的判断,是一场马拉松。目前技术仍然还没有收敛,算力是一个重要的影响因素。”国内AI头部初创企业、面壁智能CEO李大海告诉记者。
他介绍,就像DeepSeek一样,面壁也在旗下开发的MiniCPM-S系列引入自研稀疏化方案,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将Llama、MiniCPM 稀疏度提升至接近 90%,并且也能够在保持模型原有水平的基础上,有效降低模型推理的开销。
“DeepSeek的成功,说明中国人工智能企业已进入世界第一梯队。尽管我们要承认中美在人工智能上确实有原创性的差距,但是R1的发布将会很大程度影响这个行业的发展,2025年中国在AI领域的创新相当值得期待。”资深AI从业者、猎豹移动董事长兼CEO傅盛表示。
而方汉认为,要谈中国在AI上的能力完全赶超美国,还为时尚早,但是DeepSeek的表现,说明中国AI在发展空间上确实为人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,“在AI领域,中国和美国的优势相比其他国家是巨大的。”
“如果要双方真正平起平坐地竞争,还是需要解决算力卡脖子问题。”方汉坦言,“但是我预计将在2-3年内彻底解决这个问题。相信在不久之后,能看到两个国家真正实现你追我赶、公平竞争。”
责任编辑:常福强





![[doge] [doge]](https://n.sinaimg.cn/commnet/2018new_doge02_org.png)



APP专享直播
热门推荐
特朗普要求从乌克兰获得任何能得到的东西 以收回投入的资金 收起特朗普要求从乌克兰获得任何能得到的东西 以收回投入的资金
- 2025年02月22日
- 22:30
- APP专享
- 扒圈小记
31,185
特朗普要从乌克兰获得任何能得的
- 2025年02月23日
- 00:02
- APP专享
- 扒圈小记
2,601
国能置业公司发布关于网络关注员工招聘情况的说明
- 2025年02月23日
- 06:09
- APP专享
- 北京时间
2,544

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:05:42
内蒙古自治区10个新能源项目分别在呼和浩特市、鄂尔多斯(sh600295)市、巴彦淖尔市等地开工复工。这些项目建成后,预计年发电量超过130亿千瓦时,每年可节约标煤400多万吨,减少二氧化碳排放1000多万吨。 -
趋势领涨今天 12:05:30
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 11:17:03
一号文件发布,主要有几个要点:1、进一步扩大粮食单产提升工程实施规模 推动棉花、糖料、天然橡胶等稳产提质;2、支持发展智慧农业(sz000816) 拓展人工智能、数据、低空等技术应用场景;3、不允许城镇居民到农村购买农房、宅基地 不允许退休干部到农村占地建房。这些消息基本都是在市场预期之内,没有特别的地方,唯一超预期的是农业新质生产力,包括现在的生物育种技术、无人机技术、人工智能技术和数字技术等。这些都是近期炒作的热点,涨幅也是比较大,所以,明天一号文相关的板块冲高回落的概率较大。 -
趋势领涨今天 10:16:31
【2025年中央一号文件首提“农业新质生产力”】2025年中央一号文件首提“农业新质生产力”。农业农村部农村经济研究中心主任金文成对此表示,农业新质生产力的内涵是比较丰富的,包括现在的生物育种技术、无人机技术、人工智能技术和数字技术等,这些应用能够有效改变农业生产发展的状况,对我们加快农业现代化进程具有重要意义。我们要把握住这次科技革命和产业革命的机遇,在发展新质生产力上要抓好顶层设计,从制度层面、政策层面来构建适应新质生产力发展的体制机制,来支持农业农村现代化建设。同时,要构建农业的科技创新体系,提升科技创新的能力和水平,打造我们的自主创新平台,利用这些平台来推动新质生产力的发展,为我国农业农村现代化插上科技的翅膀。 -
趋势领涨今天 04:04:48
高德红外(sz002414)董事长称多个脑机接口技术已超马斯克。武汉高德红外(sz002414)股份有限公司董事长黄立在亚布力论坛年会表示,公司5年前就开展了脑机接口研究,并在不断突破脑机接口顶尖技术。高德红外(sz002414)实现了65000个通道的脑机接口,远超马斯克的3072个通道,是马斯克的20倍,并且实现了双向信息的读取与写入,而马斯克的技术则为单向。他直言,“很多技术层面的指标,我们已超过埃隆·马斯克的Neuralink公司。”不知道是不是当初的亩产万斤? -
趋势领涨今天 03:05:10
清华大学智能产业研究院(AIR)院长张亚勤院士表示,“10年后,机器人(sz300024)会比人都多,每个人身边都会有10个机器人(sz300024),包括物理或者虚拟的。未来3-5年,影响最大的受益者是IT行业本身,如英伟达、微软、亚马逊、谷歌meta、苹果,一大批芯片云计算公司等,是大受益者,他们提供技术和基础设施。 -
趋势领涨今天 01:54:15
【DeepSeek“低调”参与2025全球开发者先锋大会】《科创板日报》23日讯,《科创板日报》记者从2025全球开发者先锋大会主办方获悉,DeepSeek参与了今年大会,但是方式颇为低调,主要是以闭门会和工作坊的形式参与。 -
趋势领涨今天 01:45:26
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 01:45:17
二、宇树科技携两款机器人(sz300024)亮相2025GDC《科创板日报》22日讯,在2025全球开发者先锋大会上,宇树科技带来两款机器人(sz300024),一是售价9.9万元的Unitree G1人形机器人(sz300024),这款机器人(sz300024)最大的特点是轻量化与高负载能力;二是针对C端,有遛狗和拖物功能的Unitree Go2。近期人形机器人(sz300024)走势很强,现在2025全球开发者峰会已经召开,宇树科技研发的机器人(sz300024)也已经亮相,机器人(sz300024)的行情肯定没有走完,但短期是不是利好兑现了呢?三、马斯克投的飞行汽车试飞成功周末马斯克飞行汽车上天的消息迅速冲上各大网站热点,马斯克投的飞行汽车试飞成功!垂直起降,无外露螺旋桨,水平飞行可达177公里!217万元一辆,已有3300个订单。据了解,Model A可以垂直或水平起飞,最多可搭载两人。这款飞行汽车既可以在城市道路行驶,也能开到天上,满电状态下,水平飞行可达177公里,地面行驶可达322公里。国内研究报告指出,从2025年起,飞行汽车将迈入商业化启航的1.0阶段;预计到2035年左右,智能eVTOL飞行汽车规模化应用加速,成为低空交通出行的主要运载工具;预计到2050年左右,陆空两栖飞行汽车将实现大众化应用,低空交通与地面交通深度融合,构建起三维立体智慧交通体系。摩根士丹利预测,至2050年飞行汽车的全球市场规模将达9万亿美元,而中国潜在市场规模将达2.1万亿美元。飞行汽车是周末吹得最猛的一个板块,对A股市场来说,人形机器人(sz300024),DeepSeek经过连续大幅炒作以后,市场热点会不会借机切换到飞行汽车、低空经济等板块呢?我们认为这个概率还是很大的。 -
趋势领涨今天 01:45:02
暖风频吹 有个板块周末爆棚这个周末虽然美股大跌,但国内继续暖风频吹,主要集中在外资金融机构看好中国创新突破上电视;宇树科技携两款机器人(sz300024)亮相2025GDC;重点是飞行汽车真的上天了!一、外资金融机构看好中国创新据央视报道,外资金融机构看好中国创新突破。多家外资机构认为中国在科技创新领域不断实现突破,并且正在构建更完整的产业链条,这将不断提升中国的国际竞争力。摩根士丹利日前上调明晟中国指数评级,同时认为,中国公司在人工智能领域展现出较强的竞争力,在多项最新技术突破的支撑下,科技密集型企业有望实现利润率和收益率双增长。高盛发表的研报则看好中国在数据、“云服务”以及软件和应用等领域的发展前景。此外,外资金融机构还加大了对中国企业的调研频次。阿布扎比投资局、汇丰、施罗德、德意志银行、法国巴黎银行等外资机构,近期多次出现在A股上市公司的调研名单中,调研范围涵盖电动车、消费、家电等众多行业。国际金融协会日前发布的报告显示,1月,外国投资者积极布局中国资产,外资净买入中国股票和债券的总金额超过了100亿美元。全球估值最低的只有A股和港股,因为DeepSeek的突破,彻底改变了外资对国内的看法,但这里也有两点不太好:一是,内资继续大幅流出。上周五内资虽然出现了流入,但相比前四天大幅流出近1800亿来说,上周五流入不到70亿元,还是杯水车薪!重点是内资很难连续三天流入,所以,不排除,下周一内资还会继续砸盘;二是,周末巴菲特发布了年度报告,巴菲特提到将永远把绝大部分资金投资于股票,重点是主要是对日本的投资增加,没有提到A股和港股!