陈永伟
DeepSeek为什么能办到?
最近,一家名不见经传的AI企业突然搞出了一个震惊AI圈的大新闻。12月26日晚间,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)发布了其全新系列模型DeepSeek-V3的首个版本,并同步对模型进行了开源。
根据“深度求索”方面公布的信息,DeepSeek-V3在知识类任务(MMLU、MMLU-Pro、GPQA、SimpleQA)上的水平相比前代DeepSeek-V2.5有显著提升,接近当前表现最好的模型——An-thropic公司于10月发布的Claude-3.5-Sonnet-1022。在2024年的美国数学邀请赛(AIME)和全国高中数学联赛(CNMO)等比赛中,DeepSeek-V3的表现显著优于其他所有开源和闭源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度从20TPS(TransactionsPerSecond,每秒事务数量)大幅提高至60TPS,相比V2.5模型实现了3倍的提升,给用户带来了更为流畅的使用体验。
本来,在AI大模型如过江之鲫的今天,一个新模型的发布已经很难成为一桩新闻。虽然从披露的信息看,DeepSeek-V3确实可圈可点,但在GPT-o1、Claude-3.5-Sonnet等竞品面前,它也很难给人留下深刻的印象。然而,当另一个数据公布之后,整个AI圈却不约而同地为之侧目。根据模型附带的技术论文,DeepSeek-V3的训练仅使用了278.8万个H800GPU小时。按照H800GPU每GPU小时租金2美元计算,其总训练成本仅为557.6万美元。而对比之下,和它类似体量的Llama3模型的训练则用了3930万H100GPU小时。按算力计算,这大约够训练DeepSeek-V3模型十五次。考虑到H100GPU的租金价格要比 H800GPU更高,DeepSeek-V3的训练成本大约仅有Llama3模型的二十分之一,而其在性能方面毫不逊于后者,甚至有所超越。
既然训练成本降下来了,模型的使用成本自然也就随之降低。目前,DeepSeek-V3模型API服务的价格为每百万输入词元(token)0.15美元,每百万输出词元0.3美元;对比之下,GPT-o1模型的价格为每百万输入词元2.5美元,每百万输出词元10美元;Claude-3.5-Sonnet模型的价格为每百万输入词元3美元,每百万输出词元15美元。也就是说,DeepSeek-V3已经成功将价格降到了主要对手的十分之一以下。
在DeepSeek-V3模型发布之后,笔者也第一时间体验了一下这款新模型。客观地说,如果与GPT-o1等闭源模型相比,DeepSeek-V3在总体表现上依然稍显逊色。不过,考虑到它低廉的成本,其性价比优势可谓彰显无遗。业界一直戏称DeepSeek模型为“AI界的拼多多”,此言确实不虚!
长期以来,大模型的训练一直以耗费算力、成本高昂著称。那么,DeepSeek-V3究竟为什么可以以如此低廉的价格成功完成训练?其中的奥秘,很大程度上来自该模型使用的“混合专家模型”(MixtureofExperts,简称MoE)架构。
MoE的思想最早可以追溯到上世纪90年代初。根据这一思想,可以通过将多个实现专门功能的网络组合在一起,构成一个应对多样化任务的网络。每一个子网络被称为一个“专家”,而由它们构成的组合则被称为一个“专家组”。为了让这些“专家”更好地协调,网络中会安排一个协调者。当面对任务时,这个协调者负责将任务拆分和归类,并分配到最对口的“专家”那里。如此一来,整个“专家组”结合在一起,就可以处理各种复杂任务。2021年,谷歌的工程师发现了MoE架构在大模型训练上的价值。他们指出,这种架构可以将原本训练整个大模型的任务分解为训练多个“专家”模型。由于每个“专家”模型比整个大模型小得多,其训练对算力的要求也大幅降低。不仅如此,在MoE架构下,不同“专家”可以并行训练,训练时长也随之缩短,从而显著提高训练效率。
为了帮助读者更直观地理解MoE架构,我们不妨来看金庸小说《天龙八部》中的一段情节。在小说第十回《剑气碧烟横》中,吐蕃国师鸠摩智要求大理天龙寺限期交出《六脉神剑剑谱》。天龙寺的枯荣大师不愿就范,希望与几位高僧一起紧急修炼六脉神剑以拒敌。不幸的是,这几位高僧的武学资质较为平庸,难以单独练成这门绝世武功。情急之下,枯荣大师想出了一个办法:让六位高僧分别修炼“六脉”中的一脉。通过分工,六位高僧终于在有限时间内各自练成一脉神剑。在对战鸠摩智时,六位高僧组成“六脉剑阵”,在枯荣大师的指挥下成功与鸠摩智周旋。
这段剧情很好地说明了MoE的本质。如果将六脉神剑中的每一脉视为一个任务,六脉神剑便是一个多任务的大模型。故事中,练习六脉神剑需要强大资质,如同现实中大模型训练对算力的高要求。而枯荣大师让高僧们各修一脉的做法,相当于将模型拆分为六个“专家”。通过这样的任务分解,本身资质有限的高僧们得以速成六分之一的武功,并通过组合达成类似完整版六脉神剑的效果。类似地,几个训练好的“专家”模型经过加总与协调,也可实现完整模型的功能,同时训练门槛和总成本远低于直接训练整个大模型。
当然,相比完整训练的模型,用MoE架构训练的模型也存在弊端。例如小说中,鸠摩智趁人不备偷袭剑阵成员之一保定帝,导致剑阵失去威力。如果保定帝修炼的是完整的六脉神剑,鸠摩智或许难以轻易得手。同样,由于MoE模型的“专家”是分别训练的,其通用性较差,对复杂任务的完成高度依赖协调系统。如果协调模块出现问题,模型能力将大打折扣。
尽管如此,MoE架构在降低模型训练门槛、减少训练成本方面的贡献无可否认。这次DeepSeek-V3的爆冷成功,充分说明了这一技术路线的价值。可以预见,随着MoE及其他技术路线(如模型剪枝、知识蒸馏、稀疏性等)的逐步成熟,AI模型训练将迎来一个低成本的新时代。那么,接下来会发生什么呢?
算力不重要了吗?
DeepSeek-V3问世后,不少人预测,这将导致AI行业对算力需求的大幅回落,其后果是,以英伟达为代表的一批算力企业的业绩和市值将受到重创。这种观点颇具影响力。事实上,就在DeepSeek-V3发布之后,A股算力板块经历了一轮集体下跌,一些专家认为,这是对算力需求预期回落的直接反应。那么,情况真的会这样吗?在回答这一问题前,我们不妨回顾一段历史。
19世纪中期,英国正处于工业革命高峰期,煤炭作为主要能源,支撑了蒸汽机、钢铁工业和交通运输等领域的快速发展。煤炭的广泛使用促进了工业化和经济增长,但也导致了对煤炭的过分依赖和过度消耗。在这样的背景下,许多学者开始反思煤炭使用的可持续性问题。
英国经济学家威廉·斯坦利·杰文斯(WilliamStanleyJevons)是其中的代表人物之一。熟悉经济思想史的人对杰文斯不会陌生。他与卡尔·门格尔(CarlMenger)、莱昂·瓦尔拉斯(LéonWalras)并称“边际革命三杰”,推动了经济学研究范式从古典向新古典的转变。杰文斯在应用经济学领域也有诸多贡献,其中之一便是他提出的“杰文斯悖论”(JevonsParadox)。
1865年,杰文斯在著作《煤炭问题》(TheCoalQuestion)中分析了英国煤炭使用和开采的趋势,得出一个令人忧虑的结论:随着经济发展,煤炭供给将难以满足需求,若该趋势持续,煤炭资源将枯竭,英国经济将遭受重创。他还反驳了“能源使用效率提升能缓解资源枯竭”这一流行观点。他写道:“认为燃料的节约使用等于消费的减少,这是一个误导人的观点。事实上,新的经济模式反而会导致消费的增加。”杰文斯认为,更高的煤炭使用效率提高了煤炭的性价比,刺激了更多人使用煤炭,最终使煤炭总消耗增加。这一效率与总量之间的矛盾即为“杰文斯悖论”。
尽管杰文斯对煤炭枯竭的预测未成现实,《煤炭问题》并未广为人知,但“杰文斯悖论”却在后续研究中被多次验证。例如,欧美交通行业的研究表明,虽然汽车燃油效率不断提高,但汽车保有量和使用量的增长使能源总消耗未显著减少。同样,在日、德等国家的家庭用电研究中,节能电器的引入并未带来预期的能源需求下降。
将模型训练算力需求下降与这一历史对比,不难发现两者间存在诸多相似点。因此,有理由推测,“杰文斯悖论”可能在算力领域再次上演。也就是说,模型训练所需算力的下降,可能非但不会让市场上对算力的总需求下降,反而可能激发对算力总需求的增长。具体来说,目前有如下几股力量可能导致这一现象的出现:
首先,随着训练模型需要的算力减少,大量算力资源可能会被转投入推理端。从目前算力市场的需求结构来看,训练和推理的比例大约是7:3。换言之,当前约有70%的算力用于模型训练,仅30%用于推理。然而,这并不意味着推理端的算力需求较少。事实上,当前各大AI供应商的推理算力普遍不足。以OpenAI为例,近期不少用户反映,其旗下的GPT-4o和GPT-4出现了较为明显的“降智”现象,而这正是由于推理算力不足所导致的算力使用总体控制问题。即便是像OpenAI这样资源雄厚的企业尚且如此,推理算力的稀缺性也可见一斑。现阶段,多数AI企业将大量算力配置于训练端,主要是因为训练的重要性更高——如果模型本身不够优秀,后续推理环节便无从谈起。因此,即使训练算力需求下降,短期内节省的算力资源也会迅速被转用于推理端,从而导致算力总需求难以显著下降。
其次,随着模型训练算力需求的减少,AI企业可能会选择开发更多、更优秀的模型,从而显著提升算力总需求。当前,AI大模型赛道内卷严重,每家企业为了在竞争中占据一席之地,往往会选择在既有算力资源下开发更多的模型,或将资源集中于少数重点模型的训练中。无论采用哪种策略,激烈的竞争都将促使企业最大化利用其可支配的算力。换言之,单个模型训练算力需求的下降,只是放宽了企业的选择空间,而企业依然会耗尽其手中所有算力。
再次,模型训练算力需求的下降可能会降低行业门槛,吸引更多新企业进入市场,从而显著提升算力总需求。以往,模型训练所需的高昂算力成本是进入AI市场的主要门槛,阻挡了许多创业者。然而,随着训练算力成本的下降,这些创业者中的一部分将能够进入市场,创立自己的AI企业,进而创造出新的算力需求。这种新增需求可能是极为庞大的。
最后,随着模型训练成本的下降,模型使用成本也将降低,从而吸引更多用户采用大模型,进一步推动算力需求的增长。这种情况类似于福特T型车的故事。20世纪初,汽车的平均售价约为4700美元,高昂的价格让大部分家庭望而却步,导致汽车市场规模难以扩张。亨利·福特在1903年创立公司后,通过改进制造工艺、引入流水线技术等手段,将福特T型车的生产成本降至800美元,售价压低到850美元,使得更多家庭能够负担得起汽车。这一改变不仅扩大了汽车市场需求,还推动了福特公司的产能增长,最终实现了规模经济。到1914年,福特T型车的生产成本进一步降至200美元,售价仅为260美元。尽管单车价格降至原来的十分之一,整个汽车市场的规模却增长了许多倍。在我看来,如今的大模型市场可能正在复制这一百年前的故事。
综合以上分析,DeepSeek-V3引发的训练成本下降可能成为“杰文斯悖论”的又一例证。总体来看,算力需求不仅不会减少,反而可能因此显著增加。
算力门槛降低是一连串的事件
需要指出的是,虽然在我看来,DeepSeek-V3的成功不会降低AI对算力的总需求,但这并不意味着这个事件本身并不重要。事实上,在我看来,这一事件的影响十分深远,从某种意义上讲,它甚至会改变整个AI市场的竞争格局。要说明这一点,我们需要先对AI市场的结构有一个基本的了解。
当我们提到AI市场时,实际上是在讨论一个多层次的市场:
底层是基础支持层,包括训练和开发AI所需的软硬件。在这一层中,GPU市场是最核心、最受关注的部分。众所周知,目前在这一市场上,英伟达可谓一家独大。根据咨询机构Techsight发布的数据,2023年全球数据中心GPU出货量为385万颗,其中英伟达的市场份额高达98%,第二名AMD仅占1.2%,英特尔不足1%。英伟达能够取得这样的市场地位,很大程度上依赖于大模型训练对算力的高要求。在训练过程中,数以万计的GPU需要高效协同,而英伟达在GPU协同性能方面表现尤为出色。正因如此,各大AI企业即使面对英伟达的高价策略,也不得不被动接受——用经济学的术语来说,英伟达利用了其技术上的独特优势,成功获取了高于市场价的“租”(rent)。
中间层是基础模型层,主要参与者是开发和提供基础大模型的AI企业。过去几年中,这一层的竞争最为激烈。为了争夺市场,数百家AI企业纷纷使出浑身解数。在“百模大战”后,市场逐渐由几家互联网巨头和少数新崛起的AI企业主导,其他众多参与者则陆续退出市场。在这一过程中,有两点值得注意:首先,一些失败的企业尽管技术能力优秀,却因难以负担巨大的算力成本而不得不退出,这无疑限制了市场的多样性和可能性;其次,即便是那些在“百模大战”中获胜的企业,从成本收益的角度来看,也未必是真正的赢家。虽然部分企业实现了可观营收,但大部分收入转手支付给了英伟达等算力供应商。从整体来看,大模型企业普遍难以实现盈利。
最上层是AI的应用层,即将基础AI模型与各行业实践相结合的领域。最值得关注的是各种“AI智能体”(AIAgent)。许多专家预测,在未来几年,AI智能体将成为AI应用的核心。例如,巴克莱资本公司的一份报告预计,到2026年,消费端AI智能体的日活跃用户将突破10亿,企业端AI智能体的采用率也可能覆盖全球70亿软件任务的5%。然而,这一趋势同样需要大量算力支持。巴克莱的报告指出,为满足如此庞大的算力需求,行业GPU支出需增加4000亿美元,而这笔巨额支出最终将成为新的“租”,流入英伟达等GPU供应商的口袋。
DeepSeek-V3的成功及其引发的训练成本大幅下降,可能对上述各层市场的竞争格局产生深远影响。
基础支持层的格局可能迎来巨变。尽管英伟达仍可凭借既有优势占据大部分市场份额,但其一家独大的局面可能被打破。随着训练算力门槛降低,一些企业或许会放弃“万卡集群”,转而选择更小规模的GPU集群进行模型训练,对GPU协同性能的需求也随之降低,从而削弱英伟达的传统优势。这为AMD、英特尔等竞争者提供了机会,其他潜在的市场进入者也可能因此获益。市场竞争的加剧将削弱英伟达的议价权,让AI模型企业保留更多利润。
基础模型市场的竞争可能重新变得激烈。一些意外的“颠覆式创新”也可能随之出现。如前所述,在“百模大战”中,有不少企业原本具备较好的技术能力,却因难以负担巨大的算力成本而被迫退出市场。可以预料的是,随着算力成本变得更加可控,其中一部分企业将重新进入市场。再加上一些新竞争者的加入,整个市场的竞争程度可能会显著提升。
需要指出的是,训练成本降低对基础模型市场竞争格局的改变,可能不仅体现在“量”的层面,还会在“质”上产生深远影响。著名战略学家克里斯藤森(ClaytonChristensen)提出了“颠覆式创新”(DisruptiveInnovation)的概念。这类创新的特点是,创新者的产品在初期性能通常较差,难以吸引高端用户群体。但它们往往以高性价比为切入点,先从中低端用户群体中获得突破,逐步扩大市场份额。在此过程中,产品会快速迭代,性能持续提升,最终可能超越市场上的主流产品,成为新的主流。
以此为标准观察AI大模型市场,已经有不少企业在尝试走“颠覆式创新”的路线。虽然它们的性能确实不及GPT、Claude等头部大模型,但它们已经能够满足用户的基本需求。而且,这些企业在实践中表现出较快的产品迭代速度,产品特征也在迭代过程中日益显著。可以说,如果给它们足够的时间,即使它们无法彻底颠覆GPT,也至少有可能开发出与GPT存在明显差异化的产品,并在市场上占据一席之地。
然而,受限于高昂的训练成本,这些企业的创新频率被严重抑制,缺乏盈利能力也容易让投资者丧失耐心。在这种重重压力下,能够坚持到开发出符合市场需求产品的企业可谓凤毛麟角。而当模型训练成本大幅降低后,这些企业将迎来全新的机会。相比过去,同样的一笔投资能够支撑它们更长时间,从而显著提高其实现“颠覆式创新”的可能性。
AI应用市场可能因此更加繁荣。训练成本下降后,AI企业将有更多自由度选择将算力用于训练还是推理。许多企业可能会选择在推理端投入更多算力,从而推动AI应用生态的发展。与基础支持层和基础模型层不同,应用层直接面向C端用户。当这个市场进一步发展时,反过来将对基础支持层和模型层形成有力推动,实现整个AI市场的良性循环。
综上所述,模型训练算力需求的下降可能是整个AI行业的一个转折点。它引发的一系列连锁效应有望在未来几年改变市场的基本面貌。
一些随想
本来,畅想完DeepSeek-V3可能给整个行业带来的影响后,本文也该结束了。但在搁笔之前,笔者还是想再说几句随想。
就在几天前,DeepSeek-V3的发布者——“深度求索”这个名字,还几乎无人知晓。甚至有几位业内人士在听到DeepSeek-V3后,特地来问我,这家公司到底是何方神圣。这其实并不奇怪。毕竟从理论上讲,“深度求索”成立才一年多时间,在强敌林立的大模型赛道上,它并不算出名。事实上,在此次因DeepSeek-V3一举出圈之前,关于它的最大新闻还是其上一款 AI模型DeepSeek-V2曾将大模型的使用价格“砍”掉了90%以上,从而带头挑起了大模型的价格战。然而,没过多久,腾讯、字节跳动、阿里巴巴等巨头纷纷加入了这场价格战,结果,最初的带头人反而被遗忘了。
尽管“深度求索”本身并不出名,但其母公司——幻方量化的知名度却要高得多。早在去年,就有媒体曝出,国内GPU数量最多的企业并非AI公司,而是这家从事量化投资的金融公司。更令人惊讶的是,在众多AI公司意识到算力的重要性之前,幻方量化早已悄悄囤积了1.1万张GPU显卡。当时,许多人好奇地问:一家金融公司究竟需要这么多GPU做什么?而随着DeepSeek-V3的成功,这个问题似乎已经得到了完美的回答。
有意思的是,尽管幻方量化手握上万张显卡,但它并未像许多AI企业那样,通过“堆算力”的方式训练模型。相反,它选择了“过紧日子”,积极探索如何降低模型训练的成本。精打细算,这或许正是金融人和技术人在思维上的根本区别吧!
这一次,AI市场或许将因为这种金融思维而发生不同寻常的变化。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)