
一家中国大模型公司,如何另辟蹊径,改变牌局?
作者 | 周可
来源 | 豹变
这个春节假期,无论你是不是科技新闻的长期读者,大概率逃不过一款名为 DeepSeek的AI产品相关资讯持续刷屏。
一切始于1月20日,中国科技公司深度求索推出推理模型DeepSeek-R1,仅用 OpenAI十分之一的成本就达到其最新模型GPT-o1同级别的表现。
此前,深度求索宣布其推出的DeepSeek-V3仅花费558万美元,不到国外公司十分之一的GPU芯片和训练时长,就实现了与GPT-4o和Claude Sonnet 3.5等花费数亿美元训练的顶尖模型相当的性能。这一消息迅速激起全球科技界持续关注。
R1发布后的十天内,DeepSeek先后登上中国、美国等70多个国家苹果应用商店下载榜榜首。这是全球范围内,首次有产品超越OpenAI的ChatGPT。几年来,AI竞赛的焦虑第一次传导到美国科技公司。
DeepSeek火爆之下,对算力需求是否产生负面影响的讨论,也引发了华尔街恐慌。1 月27日,美国主要科技股市值开盘缩水超1万亿美元,英伟达股价带头跳水 16.86%,市值蒸发5890亿美元,相当于跌没了两个阿里巴巴。甲骨文下跌 13.78%,超微电脑下跌 12.49%,芯片制造商博通下跌 17.4%,台积电跌 13%。
科技股股价暴跌的同时,美国科技公司开始研究、模仿中国对手。据报道,Meta已成立四个小组专门研究DeepSeek。同时,更多质疑和围剿也接踵而至。
过去几年的AI竞赛中,中国互联网和科技公司始终是美国公司的跟随者,中国公司只能寄希望于用更多的资源投入追赶对手,但风向始终由OpenAI、Meta为代表的美国公司掌握。2022年起,美国政府宣布升级芯片出口管制,此后多次更新出口限制清单,限制高算力芯片出口,中国AI企业普遍陷入算力焦虑。
DeepSeek最新模型的出现,打破了大模型发展沦为巨头与资本游戏的行业共识,为业内追赶美国大模型的中国公司们提供一条新的思路:绕过美国堆算力的技术路径,优化算法、探索效率优先,走一条“低成本高产出”一路,也可以实现弯道超车。
量化基金背景的大模型,
如何弯道超车?
在本次新模型发布引发全球关注后,一些国外媒体和投资者一度将DeepSeek称为一家不知名的中国公司。这种描述并不准确。
DeepSeek背后的深度求索是一家创立于2023年的年轻公司,但其母公司幻方量化,是管理了超过1000亿元资产的国内头部量化交易公司,在多年前就开始涉足AI 研究。
DeepSeek创始人梁文锋最早开启AI研究的初衷是,用GPU计算交易仓位,训练量化交易模型。此后,出于探索AI能力边界的好奇,他们囤积了过万块先进GPU芯片开始训练AGI模型,储备量接近国内一线互联网公司,高于大模型创业六小龙。这为DeepSeek日后的模型进展打下了基础。
DeepSeek也不是突如其来地“惊艳”所有人,在近期推出的V3和R1模型之前,它就曾以带头打响大模型价格战而在国内AI行业引发关注。2024年5月,DeepSeek发布DeepSeek-V2 ,价格仅为GPT-4-Turbo的近百分之一。
此后的30天,字节、百度、阿里等公司的大模型相继降价,DeepSeek更是一年内3次降价,每次降幅超过85%。
降价,来自训练和推理成本的持续降低。相比OpenAI和它的中国效仿者们用数亿美元训练大模型,DeepSeek选择了一条更“抠门”,更“极致”的路线。
它的研究人员提出的一种新的MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse (混合专家结构)结合,把显存占用降到了其他大模型最常用的MHA架构的5%-13%。
行业通常用数万亿token(文本单位)训练模型,但DeepSeek通过“数据蒸馏”技术,即用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生“模型”,把数据计算最大程度降低,仅用1/5的数据量达到同等效果,促成了成本的下降。
一个通俗的举例可帮助我们理解这种变化,传统大模型每次处理问题都需激活全部参数,而普通用户提出的问题可能并不需要如此多的资源投入,这如同让一家医院的全部科室去会诊一个普通感冒;而DeepSeek-R1会先判断问题类型,再精准调用对应模块——数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升3倍,能耗也更低。
更快速度和更低能耗,建立在“低成本、高性能”的初始规划上。DeepSeek通过算法优化显著降低训练成本。R1 的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。此前,OpenAI等企业训练模型,都需要数千甚至上万块高算力的Nvidia A100、H100等顶级显卡,花费数亿美元的训练成本。
并非 OpenAI 或者中国大公司的大模型开发者们没有想到过此类模块化方案的可能性,而是他们权衡利弊,选择了更适合自身发展情况的方案。
OpenAI拥有资金和算力上的绝对优势,优先追求“通用智能”,他们花费数十亿美元,通过海量参数投喂训练模型,希望模型可以达到全能通才的效果。效仿它的中国公司们沿用这一思路,可以保证自家大模型没有明显的能力短板,快速达到可商用水平。
DeepSeek选择从垂直场景切入,从 all in 特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。

DeepSeek R1 与 OpenAI O1正式版在数学、代码、自然语言推理等任务下的测试成绩相当。
这种另辟蹊径意味着更高难度
,更高风险。若路由错误(例如将诗歌创作误判为数学题),输出质量将会暴跌;模块间的知识隔离(如用数学公式写情书),可能导致跨领域任务失败。如果未能开发出足够优异的模块化模型,前期的投入可能浪费。大多数公司受限于路径依赖或资源约束,难以接受All in这一高风险路线。
这并不容易。早期DeepSeek的MoE模型误判率普遍在15%以上,团队通过引入强化学习优化路由决策,长期训练后模型在测试中将误判率控制在个位数的低位。
多位行业人士将DeepSeek的脱颖而出理解为
“模块化特种兵”
,在与OpenAI等“通用巨兽”的比赛中,在部分领域展现出同等能力甚至略微领先。尽管DeepSeek的整体技术与OpenAI等美国企业存在差距,但其已经足以被视为一个实力逐渐接近的竞争对手。
更关键的是, DeepSeek 跳过了美国开发者们认为必不可少的步骤,这意味着在资金、算力芯片劣势的情况下,中国乃至世界各地的AI创业公司也有可能弯道超车,不必活在大公司的阴影之下,垂直领域的专注也能帮助他们在特定场景中形成优势,避免与巨头正面竞争,找到属于自己的立足之地。
开源模型,DeepSeek的选择与壁垒
DeepSeek引起轰动,除了模型本身的优异表现,还来自其坚持的免费开源主张,公开模型的源代码、权重和架构。这意味着,无论是个人还是开发者,或是企业用户都可以免费使用其最新模型,并在此基础上开发更多应用。
这一决策得到了许多行业专家和投资者的赞许。
英伟达高级研究科学家Jim Fan评论称,“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。”
硅谷风投A16Z创始人Marc Andreessen也发表评论称,DeepSeek-R1 是他见过的最令人惊叹且令人印象深刻的一个突破,作为开源的模型,它的面世给世界带来了一份礼物。
OpenAI最初是为了对抗谷歌在AI领域的垄断地位,旨在通过开源的方式促进AI技术的发展,避免谷歌在AI领域的过度控制,因此命名为 “OpenAI” 以体现其开源的愿景。但在GPT-3发布,接受微软投资后,OpenAI 出于训练成本、收益和维持其竞争力的考虑走向闭源。
目前表现强劲的其他大模型,如Meta的Llama号称选择了开源路线,但许可证需要申请访问权限,限制部分商业用途,且只公开了部分架构细节,不公开具体的训练数据构成,不提供完整的训练脚本。这样的开源对于AI产业的进步意义十分有限。
大多数中国大公司开发的大模型,如百度的文心一言、华为的盘古大模型等产品都选择了闭源路线,它们往往是基于商业化和竞争考量,平台型公司有足够多的资源,掌握了大量的用户数据,可以依靠自身的内部循环完成模型的训练和迭代。闭源可以让他们在模型专长的领域保持优势,避免被竞争对手赶超。
DeepSeek选择开源,
既是出于对传统大厂的技术垄断的挑战,也是基于自身发展情况的考量
。创业公司可能在资源和算力上处于劣势,但通过开源策略,可以快速建立生态,
获得更多的用户和开发者支持
。
DeepSeek创始人梁文锋此前谈及对于开源的构想是,成为更多公司的模型底座。哪怕一个小 APP都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
在他看来,DeepSeek未来可以只负责基础模型和前沿的创新,其他公司在 DeepSeek的基础上构建To B、To C的业务。如果能形成完整的产业上下游,就没必要自己做应用。
DeepSeek所选择的模块化模型设计,如同精密的钟表——单个齿轮的工艺或许可复制,但整体协同需要长期试错与生态积累。竞争对手并不能依靠简单照搬就能复制其原始模型,越多的用户和开发者使用,则意味着模型得到更多训练。
当下,DeepSeek背靠千亿量化基金,在免去资金的后顾之忧后,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,通过开源基础模型吸引开发者,未来再逐步通过企业版工具链(如模块训练平台)推进商业化。
今天的AI竞争格局之下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键落子。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。
这本质上是
一场关于“标准制定权”的争夺
——谁的开源协议能成为行业事实标准,谁就能在下一代AI基础设施中占据核心位置。中国科技公司与美国科技公司
之间的差距,不是时间维度,而是创新和模仿的差别。
这一次,DeepSeek 代表的中国科技公司给出的方案不再是模仿跟随,而是创新。
责任编辑:韦子蓉





![[嘻嘻] [嘻嘻]](https://n.sinaimg.cn/commnet/2018new_xixi_org.png)


![[嘻嘻] [嘻嘻]](https://n.sinaimg.cn/commnet/2018new_xixi_org.png)

APP专享直播
热门推荐
吕国泉委员:建议每周上班不超44小时 收起吕国泉委员:建议每周上班不超44小时
- 2025年03月04日
- 11:32
- APP专享
- 扒圈小记
23,330
在白宫质疑泽连斯基着装,美国记者称遭死亡威胁
- 2025年03月04日
- 08:18
- APP专享
- 扒圈小记
12,451
鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕
- 2025年03月04日
- 09:55
- APP专享
- 北京时间
8,220

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
巨丰投资张翠霞今天 01:17:47
【更多独家重磅股市观点请点击】 -
巨丰投资张翠霞今天 01:17:43
指数运行:上证指数未能延续昨日弱势探底走势,在海外市场剧烈调整压力释放下,给出略显缩量的探底回升抵抗阳线,为3300点强支撑区域的空翻多资金回流使然,也是阶段性急跌到颈线和34日线强支撑的买盘承接转强刺激,从涨多跌少家数比、大幅低开缺口当日完成回补、短期均线支撑变支撑\中长期均线系统仍呈现较好多头排列、MACD指标零轴上方死叉初始形成、成交量进一步减少、EDA展现较强多头攻击行情,以及过半行业细分再现“普涨+急涨+大涨”的市场运行,明确此位置的缩量多头抵抗或有反复,但不会逆转中期向好上升趋势,建议趋势筹码继续坚守做多操作策略,以博弈后市大概率的主升浪行情机会~~~【更多独家重磅股市观点请点击】 -
徐小明今天 01:16:53
【盘中直播】交易是连续的过程,要坚持看操作策略《徐小明:周三操作策略》【更多独家重磅股市观点请点击】 -
波段擒龙今天 01:16:25
今天是2025年3月5日星期三,早上好!首席投顾王老师前瞻要点:一、沪指昨天下探至30天均线3300点位置后重新回抽,证明这个位置支撑力度较大。另外受消息影响,半导体芯片股大涨。对于整体市场而言,3月资金流向和活跃度会对比2月谨慎一些,但是并不缺乏热点的诞生,密切关注两会政策导向。二、随着两会临近,市场或将沿着两会政策导向展开,相关板块也可以适当加进自选。三月重点关注以下板块:1、AI科技创新、人工智能、AI医疗健康、智能穿戴。2、环保与新能源、新能源电池、动力电池与回收、光伏概念。3、新型工业化、低空经济、农业与乡村振兴。4、半导体元件、新材料。(以上所有观点为王君毅投顾观点,执业证书编号:S1350620030001,条件单为演示模型,根据历史回测和回溯数据,不作为未来的走势依据,不作为推 荐,仅供参考,不作为入市依据,据此入市,盈亏自负,市场有风险,投资需谨慎) -
北京红竹今天 01:13:22
昨天早评说市场要情绪修复,而且修复的还不错,今天上午大概率还有修复,但下午就不好说了,结构上咱们还是继续复读机,如果没有完成三十分钟级别回落段,继续阳线突破新高,那么就找大级别卖点,如果继续构造三十分钟级别回落段,那么后期还可以再玩一波,今天看市场情绪了,有情绪就玩玩短线,没有就算。准备战斗 -
徐善武今天 01:12:17
国务院新闻办公室将于上午11时30分举行吹风会,解读《政府工作报告》。A股也正式进入两会时间了。大家重点关注政府工作报告中,今年的GDP增长目标以及CPI、财政赤字率、专项债规模等目标数字,这直接影响2025年经济刺激的力度!还有相关产业政策方面表述,去年的低空经济首次写入政府工作报告,就引发一轮炒作。今年机会比较大的是机器人(sz300024),前天盘后中国政府网官方发表《机器人(sz300024)群侠传》,意味深远!总之,两会正式开始了,各个有预期的方向可能会动一动了,养老、消费、机器人(sz300024)、人工智能、低空经济等等!可以考虑埋伏一下说不定就轮动到了。另外,今天的首场“部长通道”也有有看头,尤其工信部、科技部、发改委的关于产业的表述,如果有超预期的也会引起市场炒作。 -
徐善武今天 01:11:41
偏负面公告1、比亚迪(sz002594)股份:拟配售新H股筹资435亿港元2、东方集团(sh600811):公司存在重大违法强制退市风险3、*ST嘉寓(sz300117):公司股票存在可能因股价低于面值被终止上市的风险4、春晖智控(sz300943):拟购买春晖仪表控制权股票明起停牌5、迈信林(sh688685):股东拟减持合计不超2%公司股份6、文科股份(sz002775):泽广投资拟减持公司不超1.6%股份 -
徐善武今天 01:11:33
偏正面公告1、贵州茅台(sh600519):已耗资12亿元回购82.22万股2、长安汽车(sz000625):2月销量为16.14万同比增长5.72%3、光弘科技(sz300735):拟7.33亿元收购AC公司100%股权及TIS公司0.003%股权4、康缘药业(sh600557):收到固本消疹颗粒临床试验批准通知书5、芯能科技(sh603105):控股股东拟以5000万元—1亿元增持公司股份6、复星医药(sh600196):控股子公司获24价肺炎球菌多糖结合疫苗临床试验批准7、惠泰医疗(sh688617):全资子公司取得医疗器械注册证8、陆家嘴(sh600663)业绩快报:2024年净利同比增长5.26%9、海南华铁(sh603300):子公司签署36.9亿元算力服务协议 -
北京红竹今天 01:09:08
早上好 -
波段擒龙今天 01:09:05
【波段擒龙直播室风险提示】1、本人郑重声明不承诺收益,不代理财,不私下收费;2、本直播室中的证券投资相关信息内容均为网络摘录·整合,仅供学习参考,不构成股市投资建议;3、请各位投资者理性投资,根据自身经济实力、投资经验和风险承受能力独立做出投资决定。