DeepSeek“鲇鱼效应” 2025年大模型价格战或将持续|性价比_新浪财经

转自：中国经营网

本报记者曲忠芳北京报道

“性价比”是商业社会中的制胜法宝之一，从消费电子到零售服务，从传统制造业到互联网经济，高性价比在撬动市场、赢得用户方面屡试不爽。而如今，在“规模法则”（Scaling Law）主导下、“大力出奇迹”的大模型“烧钱”竞赛中，来自中国杭州的大模型初创企业深度求索（DeepSeek）凭借高性价比迅速出圈，被冠以“AI界的拼多多”称号，吸引了国内外的广泛关注。

截至1月10日，深度求索的最新大模型产品DeepSeek V3已发布并开源半个月之久，如同“鲇鱼”般给原本卡在“瓶颈”中的全球大模型市场注入了新的活力，《中国经营报》记者通过采访业内人士，希望深度探讨DeepSeek这条“鲇鱼”将搅起市场的哪些变化。

“AI界的拼多多”验证新思路？

DeepSeek被冠以“AI界的拼多多”称号，主要是因为它极高的性价比，与拼多多在电商领域以高性价比著称的模式相似。有趣的是，在DeepSeek V3生成的“自我介绍”中也使用了这一称谓。

深度求索公司创立于2023年7月，是由中国量化私募公司“幻方量化”创始人梁文峰创立，2024年5月推出了第二代开源模型DeepSeek V2，到2024年12月26日又推出最新的开源模型DeepSeek V3。DeepSeek官网显示，在多项基准测试——涵盖英语、中文、数学、代码等结果中，DeepSeek V3的成绩超过了阿里的千问“Qwen2.5-72B”、Meta公司的Llama3.1-405B等开源模型，而且与OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet两大闭源模型的表现也不相上下。更为重要的是，DeepSeek方面披露，其训练成本仅为557.6万美元和2000块英伟达H800 GPU（图形处理器）。

与之形成鲜明对比的是，据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估，OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元，同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息，2024年7月面世的开源模型Llama3.1-405B，训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群，使用10万个英伟达 H100 GPU。另据美国媒体报道，GPT-4o的训练成本约在1亿美元，GPU数量预计在万个级别；而Claude3.5-Sonnet的训练成本或略低于1亿美元，使用的GPU数量推测为数千至上万个。从这些直观的数据对比中不难看出，DeepSeek大幅度降低了模型训练和推理成本。

关于DeepSeek如何实现高性价比的问题，本报记者咨询了数名来自高校、企业的技术专家，他们做出了一些专业技术方面的解释，涉及多头潜在注意力机制（MLA架构）、稀疏专家混合模型（MoE）架构、FP8混合精度训练、数据蒸馏与算法优化等。简单来说，DeepSeek没有“堆砌算力”，而是在算力限制下转而探索效率优先的途径。

“DeepSeek V3出现后，对于一些中小型团队来说是有利的。”一位业内人士如是说道。近两年来，规模法则被视为大模型发展的黄金定律，大模型的性能指数与模型参数、数据量、算力的增加正相关，因此全球范围内呈现一场“大力出奇迹”的竞赛。然而，随着模型规模的不断膨胀，规模法则的边际效益逐渐递减。一方面，超大规模模型的训练成本高昂，算力需求呈几何级数增长；另一方面，数据质量和模型架构的优化空间有限，导致性能提升逐渐趋缓。在这种趋势下，大模型日渐成为巨头与资本的游戏，直到DeepSeek验证了大模型性能提升的新思路。

深度科技研究院院长张孝荣指出，DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可，其通过优化算法和工程实践，实现了高性能与低成本的平衡，为大模型的发展提供了新的思路和可能性，降低了大模型对先进算力的依赖程度。DeepSeek为整个行业的发展注入了活力，也对大模型的技术路径和工程实践产生了积极影响，推动了高效训练、轻量化模型和工程优化。

价格战或持续，AI加速普惠落地

“DeepSeek加速了AI和大数据技术的普及，有望使更多企业和开发者能够接触并应用这些技术。同时，也迫使竞争对手重新评估定价，这可能引发行业内的价格战，推动整体价格下降，使更多企业能够采用先进技术。”张孝荣说道。

事实上，早在DeepSeek V2发布开源之时，深度求索这条“鲇鱼”引发了2024年国产大模型的第一波降价热潮，参与其中的包括智谱AI等大模型初创公司以及字节跳动、阿里巴巴、百度、腾讯等科技大厂。其中，智谱AI公司CEO张鹏此前接受本报记者采访时回应称，降价并非出于市场压力，而是因为技术的进步带来了成本的降低，由此让利给用户，同时也是为了更好地拓展市场。深度求索创始人梁文峰在接受媒体记者采访时也表示：“我们不是有意成为一条‘鲇鱼’，只是不小心成了一条‘鲇鱼’。我们只是按照自己的步调来做事，然后核算成本定价。原则是不贴钱，也不赚取暴利，在成本之上稍微有点利润。”

到了2024年年底，即在DeepSeek V3发布前后，国产大模型在2024年的第二波降价潮再起。2024年12月中旬，字节跳动旗下豆包大模型率先更新价格，豆包视觉理解模型的输入价格为0.003元/千tokens，相比行业平均价格降低了85%。按照这一价格，1元钱可以处理284张720ppi的图片。抖音集团副总裁李亮称，此次降价不是“价格战”，而是豆包大模型在算法、软件工程和硬件方案上进行了大量优化，有效降低了成本，目前的定价仍能保持可观的毛利。而DeepSeek官方信息显示，最新的DeepSeek V3输入价格为0.5元/百万tokens，输出价格最低为8元/百万tokens，远低于Claude3.5-Sonnet、GPT-4o等。

在海外社交媒体中，DeepSeek的高性价比已引起了大模型竞争对手的高度关注，而在国内市场，记者从多位消息人士处了解到，国产大模型厂商也在密切关注DeepSeek的训练方案，尽管还没有公开的动作，但一个行业性的共识在于，算力堆砌或许仍能“大力出奇迹”，但同时在数据质量、训练模式、架构优化方面仍有可挖掘的创新空间，大模型正在加速朝着普惠落地的方向前进。

谦询智库创始合伙人龚斌指出，其他大模型厂商或许会通过技术追赶和资源投入快速跟进，不排除复制甚至超越DeepSeek高性价比优势的可能性，DeepSeek能否持续建立起优势壁垒还有待观瞻。另有业内人士提到，DeepSeek开发过程中利用已有的模型进行训练，也存在一些漏洞。

除此之外，盘古智库学术委员、DCCI-未来智库与FutureLabs-未来实验室首席专家胡延平发文提醒道，尽管DeepSeek V3在效率和性能上表现出色，但“不宜过高评价”其创新性。在他看来，该模型的成功主要依赖于已有技术的有效整合，如合成数据、知识蒸馏等，而缺乏底层原理的创新，呈现的是“又一次是我们一直最擅长的性价比”。“DeepSeek V3能不能持续有流量不太好说。”

关于AI大模型未来价格的进一步下降、商业化应用，以及深度求索公司后续的发展，本报记者将持续关注报道。

（编辑：吴清审核：李正豪校对：颜京宁）