起底DeepSeek：私募基金下场做AI，“中国模式”跻身全球前三|AI_新浪财经

1月26日—27日，短短两天内，国内AI创业公司DeepSeek（深度求索）遭遇两次短暂宕机，DeepSeek将其归因为，新模型发布后导致访问量激增。

新模型指的是刚发布的推理大模型DeepSeek-R1，由此带来的访问量有多大？27日，DeepSeek在苹果美区应用商店下载量力压ChatGPT，登顶免费App下载排行榜。

几乎名不见经传的创业公司，一年多时间内成为大模型行业的“黑马”，是否意味着国内大模型迎来了弯道超车的机会？

好用又便宜

2024年12月，DeepSeek发布了新一代大语言模型V3，已引起行业不少讨论，但1月20日发布的R1，将DeepSeek的热度推向了高潮。

国外大模型排名榜单Arena最新测评显示，R1基准测试在全类别大模型中排名第三，其中在风格控制分类中与OpenAI o1并列第一，其竞技场得分达到1357分，甚至略超OpenAI o1。这也几乎意味着，DeepSeek-R1跻身全球最强大模型之列。

DeepSeek的官方测试也显示，R1在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1正式版。在各自小参数版本的模型比拼中，R1-32B与o1-mini的表现各有胜负，其中前者的数学推理明显优于后者。

DeepSeek-R1性能对齐OpenAI-o1。

DeepSeek的横空出世，让硅谷多位AI大佬刮目相看，无论是微软CEO还是OpenAI的投资人都公开表达，DeepSeek-R1作为开源模型在推理计算能力的出色表现，令人印象深刻。而《黑神话：悟空》主创成员冯骥在使用R1后指出了六大优势：强大、便宜、开源、免费、联网和本土。其中，便宜、免费、联网等优势全面超越了OpenAI、Meta、Google等AI巨头。

免费和联网都好理解，DeepSeek有多便宜？推理模型R1的API（编程接口）服务定价为每百万tokens（词元）仅需1元（缓存命中）/4 元（缓存未命中），每百万输出tokens为16元。大语言模型V3就更便宜了，每百万tokens仅需0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens为2元。DeepSeek的定价约等于Llama 3-70B的七分之一，GPT-4 Turbo的七十分之一。

或许大家还记得，2024年5月国内大模型掀起了一股降价潮，不少大模型的API价格下调90%以上，DeepSeek便是第一家降价的大模型，也被称为AI界的“拼多多”。

展现本土技术优势

便宜又好用的大模型，为何诞生在一家成立仅1年半的创业公司？这就不能不提到，DeepSeek与生俱来的算力优势和技术优势。

天眼查信息显示，DeepSeek背后的实控人是梁文锋，他所创立的幻方量化是国内知名的量化私募基金，这也给DeepSeek打下了良好的算力基础。

不同于常规基金依赖基金经理，量化基金通过数量模型的计算寻找投资机会，因此对数据尤为敏感，其高频交易的特点更是离不开机器学习。为了从海量数据(14.210, -0.66, -4.44%)中挖掘投资机会，幻方量化早早开始囤积算力，先后斥资10亿元，在美国对芯片出口管制前购买了1万张英伟达A100型号GPU。机缘巧合下，幻方量化成为国内GPU算力最充足的企业之一。

DeepSeek登顶App Store美区榜首。

AI行业有条Scaling Law（规模化法则），指的是大模型的性能与其训练资源、数据集和参数规模存在正相关性，也就是说，算力越大、参数越多，训练出的大模型性能就越好。如果遵照Scaling Law的规则，幻方量化的算力基础，成了DeepSeek最大的王牌之一。

当然，光靠算力优势，DeepSeek显然无法与全球AI巨头抗衡。“DeepSeek爆火主要是创新的技术路线。”上海人工智能行业协会秘书长钟俊浩认为，架构机制、训练方法和管道并行算法等创新，展现了中国本土AI技术的潜力，颠覆了中国只是AI技术跟随者、应用方的传统认知。

根据DeepSeek公布的技术论文显示，R1在训练过程中实验了三种技术路径：直接强化学习、多阶段渐进训练和模型蒸馏，其中R1首次证明了直接强化学习的有效性。科技媒体在技术解读中打了个比方，面对同一道题目，大模型同时多次进行回答，系统将给每个答案打分，依照“高分奖励低分惩罚”的逻辑进行循环，最终得出更具优势的推理路径。

与此同时，Deepseek还采用了混合专家模型（MoE）创新架构，只需激活5%—10%的专家网络，大幅降低了大模型训练的算力要求，同时还采取了FP8混合精度训练，减少模型训练的显存占用量。

本着“该省省该花花”的训练思路，DeepSeek最新大语言模型V3的训练成本仅为558万美元，不足GPT-4o的二十分之一。

下一个赛道

从OpenAI o1开始，豆包、通义等都陆续发布了推理大模型DeepSeek-R1的加入，将这场推理竞赛推向白热化。

“人工智能技术的发展具有其内在逻辑，主要体现为实现从‘记忆’到‘思考’的跨越，一定程度上解决逻辑上的‘幻觉’问题。”钟俊浩认为，早期大模型的核心能力是海量知识的压缩存储与模式匹配，就像是“填鸭式”教育，把大量的知识都背出来，核心考核的是知识记忆的规模和调取的效率。“死记硬背”的模式有其优势，给答案很快，但是也有问题，看到的材料写什么就输出什么，缺乏深度思考，缺乏进一步的甄别判断能力，容易人云亦云。

而推理能力需要模型具备动态规划、因果推断和符号逻辑处理能力。OpenAI的o1通过改进架构和训练方法，使模型逐步从“鹦鹉学舌”转向“解题专家”。

在长文本交互和多模态的全球竞争中，国内大模型已经崭露头角，随着大模型推理能力的迭代，中国还有机会弯道超车。钟俊浩认为，高效利用计算资源、相对较低的成本，以及更高的市场活跃度，是国内训练推理大模型的优势所在。

“推理模式所需的处理数据量相对较小，对高性能集成电路算力芯片的需求强度相对减少。”他表示，国内面临高端算力芯片紧缺的难题，但推理大模型能更集约利用有限的算力资源，同时国内算力基础设施较为完备，训练硬件成本较低。

更重要的是，中国的人工智能市场处于开放竞争的状态，不仅有阿里、字节、商汤等大型AI厂商，还有阶跃星辰、MiniMax等高水平的AI创业企业，而美国则集中在微软、谷歌等巨头。更多市场参与者，就有更多创新想法，意味着市场更活跃。

此外，中国具有极强的政策引导能力。以上海发布“模塑申城”实施方案为例，进一步明确了“5+6”应用场景，为人工智能企业在推理方面的应用，拓宽了发展空间，从而引导市场形成，加速商业化进程。

上观新闻·解放日报原创稿件，未经允许严禁转载

作者：查睿

微信编辑：泰妮