转自:中国经营网
本报记者 曲忠芳 北京报道
“性价比”是商业社会中的制胜法宝之一,从消费电子到零售服务,从传统制造业到互联网经济,高性价比在撬动市场、赢得用户方面屡试不爽。而如今,在“规模法则”(Scaling Law)主导下、“大力出奇迹”的大模型“烧钱”竞赛中,来自中国杭州的大模型初创企业深度求索(DeepSeek)凭借高性价比迅速出圈,被冠以“AI界的拼多多”称号,吸引了国内外的广泛关注。
截至1月10日,深度求索的最新大模型产品DeepSeek V3已发布并开源半个月之久,如同“鲇鱼”般给原本卡在“瓶颈”中的全球大模型市场注入了新的活力,《中国经营报》记者通过采访业内人士,希望深度探讨DeepSeek这条“鲇鱼”将搅起市场的哪些变化。
“AI界的拼多多”验证新思路?
DeepSeek被冠以“AI界的拼多多”称号,主要是因为它极高的性价比,与拼多多在电商领域以高性价比著称的模式相似。有趣的是,在DeepSeek V3生成的“自我介绍”中也使用了这一称谓。
深度求索公司创立于2023年7月,是由中国量化私募公司“幻方量化”创始人梁文峰创立,2024年5月推出了第二代开源模型DeepSeek V2,到2024年12月26日又推出最新的开源模型DeepSeek V3。DeepSeek官网显示,在多项基准测试——涵盖英语、中文、数学、代码等结果中,DeepSeek V3的成绩超过了阿里的千问“Qwen2.5-72B”、Meta公司的Llama3.1-405B等开源模型,而且与OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet两大闭源模型的表现也不相上下。更为重要的是,DeepSeek方面披露,其训练成本仅为557.6万美元和2000块英伟达H800 GPU(图形处理器)。
与之形成鲜明对比的是,据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元,同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息,2024年7月面世的开源模型Llama3.1-405B,训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群,使用10万个英伟达 H100 GPU。另据美国媒体报道,GPT-4o的训练成本约在1亿美元,GPU数量预计在万个级别;而Claude3.5-Sonnet的训练成本或略低于1亿美元,使用的GPU数量推测为数千至上万个。从这些直观的数据对比中不难看出,DeepSeek大幅度降低了模型训练和推理成本。
关于DeepSeek如何实现高性价比的问题,本报记者咨询了数名来自高校、企业的技术专家,他们做出了一些专业技术方面的解释,涉及多头潜在注意力机制(MLA架构)、稀疏专家混合模型(MoE)架构、FP8混合精度训练、数据蒸馏与算法优化等。简单来说,DeepSeek没有“堆砌算力”,而是在算力限制下转而探索效率优先的途径。
“DeepSeek V3出现后,对于一些中小型团队来说是有利的。”一位业内人士如是说道。近两年来,规模法则被视为大模型发展的黄金定律,大模型的性能指数与模型参数、数据量、算力的增加正相关,因此全球范围内呈现一场“大力出奇迹”的竞赛。然而,随着模型规模的不断膨胀,规模法则的边际效益逐渐递减。一方面,超大规模模型的训练成本高昂,算力需求呈几何级数增长;另一方面,数据质量和模型架构的优化空间有限,导致性能提升逐渐趋缓。在这种趋势下,大模型日渐成为巨头与资本的游戏,直到DeepSeek验证了大模型性能提升的新思路。
深度科技研究院院长张孝荣指出,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现了高性能与低成本的平衡,为大模型的发展提供了新的思路和可能性,降低了大模型对先进算力的依赖程度。DeepSeek为整个行业的发展注入了活力,也对大模型的技术路径和工程实践产生了积极影响,推动了高效训练、轻量化模型和工程优化。
价格战或持续,AI加速普惠落地
“DeepSeek加速了AI和大数据技术的普及,有望使更多企业和开发者能够接触并应用这些技术。同时,也迫使竞争对手重新评估定价,这可能引发行业内的价格战,推动整体价格下降,使更多企业能够采用先进技术。”张孝荣说道。
事实上,早在DeepSeek V2发布开源之时,深度求索这条“鲇鱼”引发了2024年国产大模型的第一波降价热潮,参与其中的包括智谱AI等大模型初创公司以及字节跳动、阿里巴巴、百度、腾讯等科技大厂。其中,智谱AI公司CEO张鹏此前接受本报记者采访时回应称,降价并非出于市场压力,而是因为技术的进步带来了成本的降低,由此让利给用户,同时也是为了更好地拓展市场。深度求索创始人梁文峰在接受媒体记者采访时也表示:“我们不是有意成为一条‘鲇鱼’,只是不小心成了一条‘鲇鱼’。我们只是按照自己的步调来做事,然后核算成本定价。原则是不贴钱,也不赚取暴利,在成本之上稍微有点利润。”
到了2024年年底,即在DeepSeek V3发布前后,国产大模型在2024年的第二波降价潮再起。2024年12月中旬,字节跳动旗下豆包大模型率先更新价格,豆包视觉理解模型的输入价格为0.003元/千tokens,相比行业平均价格降低了85%。按照这一价格,1元钱可以处理284张720ppi的图片。抖音集团副总裁李亮称,此次降价不是“价格战”,而是豆包大模型在算法、软件工程和硬件方案上进行了大量优化,有效降低了成本,目前的定价仍能保持可观的毛利。而DeepSeek官方信息显示,最新的DeepSeek V3输入价格为0.5元/百万tokens,输出价格最低为8元/百万tokens,远低于Claude3.5-Sonnet、GPT-4o等。
在海外社交媒体中,DeepSeek的高性价比已引起了大模型竞争对手的高度关注,而在国内市场,记者从多位消息人士处了解到,国产大模型厂商也在密切关注DeepSeek的训练方案,尽管还没有公开的动作,但一个行业性的共识在于,算力堆砌或许仍能“大力出奇迹”,但同时在数据质量、训练模式、架构优化方面仍有可挖掘的创新空间,大模型正在加速朝着普惠落地的方向前进。
谦询智库创始合伙人龚斌指出,其他大模型厂商或许会通过技术追赶和资源投入快速跟进,不排除复制甚至超越DeepSeek高性价比优势的可能性,DeepSeek能否持续建立起优势壁垒还有待观瞻。另有业内人士提到,DeepSeek开发过程中利用已有的模型进行训练,也存在一些漏洞。
除此之外,盘古智库学术委员、DCCI-未来智库与FutureLabs-未来实验室首席专家胡延平发文提醒道,尽管DeepSeek V3在效率和性能上表现出色,但“不宜过高评价”其创新性。在他看来,该模型的成功主要依赖于已有技术的有效整合,如合成数据、知识蒸馏等,而缺乏底层原理的创新,呈现的是“又一次是我们一直最擅长的性价比”。“DeepSeek V3能不能持续有流量不太好说。”
关于AI大模型未来价格的进一步下降、商业化应用,以及深度求索公司后续的发展,本报记者将持续关注报道。
(编辑:吴清 审核:李正豪 校对:颜京宁)


APP专享直播
热门推荐
鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕 收起鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕
- 2025年03月04日
- 09:55
- APP专享
- 扒圈小记
8,993
两会建言|陈众议:尽早实施十二年义务教育
- 2025年03月04日
- 14:28
- APP专享
- 扒圈小记
3,768
国内油价或“二连降” 加满一箱将少花3.5元
- 2025年03月04日
- 23:35
- APP专享
- 北京时间
1,988

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
数字江恩今天 10:15:45
5分钟图来看,图上的红色线是前3140-3220轮谷线。红色线压力难以突破。今日虽然靠银行等权重延续反弹,但总体来说,都是3356压力之下的一次抵抗而已。3388的回踩并未完成,明日向上红色轮谷线压力,空间很小;而向下在3325跌破则表示图上绿色轮回线的再次回踩开始。【更多独家重磅股市观点请点击】 -
数字江恩今天 10:15:23
板块来看,前期洗盘的科技和机器人(sz300024)今天涨幅最大,细分来说,人形机器人(sz300024),国产算力,云,数据中心等涨幅靠前。权重方面,金融、建材护盘。 -
数字江恩今天 10:15:17
A股两市今日成交5878 + 9060 = 14938 亿人民币,相比昨日略微放量,但仍维持在低量群之中。大盘全天缓慢攀升,速度基本和昨日相当,收涨18个点。个股方面,涨跌比约为4:5,红盘个股家数不到一半。 -
数字江恩今天 10:15:11
3388回踩尚未结束 -
趋势领涨今天 09:33:31
香港恒生指数涨2.84%,恒生科技指数涨4.02%。华虹半导体、小米集团涨超7%,中芯国际(sh688981)、美团涨逾6%,联想集团、哔哩哔哩涨超4%,百度集团、京东集团、快手涨超3%。本轮反弹是从港股开始的,港股有创新高的趋势,如果港股创新高,A股就还有反弹。 -
趋势起航今天 09:27:37
最新更新《(晚间)3月4日(周二)策略报告》请注意查收! -
北京红竹今天 08:29:09
3、冰点附近底分型最近行情没什么可说的,聊些知识点【每周内参】中有这样一个品种,它属于上涨趋势,并且沿着20日均线一路向上,速度也不快,慢慢悠悠,量能也没有持续放大,也算比较温和。那这个时候选择切入点就很关键了,需要先找到趋势的标准,这种很明显就是属于趋势跟随型,按照趋势的标准跟随买入就好,不符合趋势标准就退出。昨天缩量跌破20日线,从趋势来说破位,可就要看是否拉回了,今天开盘之后出现底分型,在早盘构造底分型之时,就可以理解为趋势跟随买入的位置,后面就按照趋势跟随吃就好。而止损位就可以设置在昨天的低点。后面如果股价继续向上攀升,离场点有两种要么向上乖离很大,要么跌破趋势。按照趋势跟随买入,卖出也要按照趋势跟随卖出。这也是交易中的根。 -
北京红竹今天 08:29:00
2、主线依然没变如果说回落下来准备看哪些方向?资金还是没变,继续看科技这条线,像什么白酒、房地产、消费什么的就算了。DS和人形机器人(sz300024),目前都属于短期调整结构之内,如果完成了调整结构,波段和短线继续向这个方向靠拢就好了。资金在哪里,肉就在哪里,当然也并不是只有DS和人形机器人(sz300024),其他扩展科技题材都可以。这两天观察就好,我也会在【每周内参】中挑选一些符合缠论结构,并且大级别向上的品种,放到股票池中,供大家借力参考。 -
北京红竹今天 08:28:55
1、没变化继续重复观点,缠论就是一段时间一个观点,很难改变。一、如果没有构造日线一笔下跌,直接新高,那就要寻找大风险。二、日线下跌一笔之后寻找机会,干。目前从最高点向下数已经有4个新低了,三十分钟级别回落段形成,也是还差破个低。分类做好了,剩下就看市场怎么选择了,而不是我们去预测市场是涨还是跌。我个人的组合也是等待日线一笔下跌之后,布局波段品种和ETF,这两天几乎没什么交易,也在耐心等待呢。短线也没交易,市场情绪不足,很难找到持续性溢价,赢面不大也就没动。 -
趋势领涨今天 08:01:18
今日共63股涨停,连板股总数13只,24股封板未遂,封板率为72%(不含ST股、退市股)。焦点股方面,机器人(sz300024)板块继续领涨,卓翼科技(sz002369)11天7板,圣龙股份(sh603178)、信隆健康(sz002105)、龙溪股份(sh600592)等连板晋级;午后人气股拓维信息(sz002261)涨停,引领算力板块反弹,大位科技(sh600589)9天6板、宏景科技(sz301396)20CM4天2板。