爆火出圈,没那么偶然。
来源:时代周报
春节假期,泼天流量降到了DeepSeek的头上。
大概一周多之前,DeepSeek还算不上太有名气,在大模型圈之外,外界对它可能多是一头雾水。然而短短几天,其就一跃成为业界顶流,并闯进了公众视野。
因接连推出的两款大模型产品,DeepSeek在华尔街掀起风暴,美股科技股一度重挫。周二,英伟达单日蒸发近6000亿美元市值,博通和美光(99.52, 3.86, 4.04%)科技等芯片产业链股票也纷纷大跌。虽然周三英伟达反弹涨近9%,但DeepSeek带来的心理冲击并没消散。
“DeepSeek大模型在性能上比肩ChatGpt,可能意味着国产大模型实现突破,这对美股科技股造成了冲击。”前海开源基金首席经济学家杨德龙告诉时代周报记者。在他看来,科技股是美股牛市的主要推动力,但投资者担心其估值产生巨大泡沫。若一些新技术突破或新模型不需要消耗那么多的GPU,可能会引发像英伟达等公司的大幅下跌,从而导致美股科技股泡沫破裂。
作为一家成立不到两年的大模型公司,无论在融资、技术进展还是舆论层面,DeepSeek一向都动静不大。而它背后的公司幻方量化(一家头部量化私募),在此之前也仅是在私募圈出名。出人意料的是,一家私募和一家大模型初创公司,这样的少见组合诞生了“DeepSeek神话”——无疑令人倍感好奇。
这一切是怎么做到的?
潜行多年
如果从成立时间上看,DeepSeek并无特别之处。自2022年底ChatGPT发布之后,全球科技圈震动,随之一系列国产大模型创业项目面世。DeepSeek搭乘的也是这股潮流,2023年4月,幻方量化高调宣布进军大模型,三个月之后,DeepSeek作为独立公司成立。
但脱胎于幻方量化的DeepSeek,其实技术积累要更早。
幻方量化成立于2015年,创始人是梁文锋。在该公司官网上,赫然写着的是:使用AI投资的对冲基金。按照幻方量化的披露,在公司成立之前七八年时间,创始团队就在探索将技术应用于投资交易。当时量化投资在国内尚未流行,团队成员在这方面的经验同样寥寥,出于朦胧的市场感知和技术理想(25.84, 0.64, 2.54%),梁文锋团队仍决定走上这条路。
在这一时期,幻方量化创始团队从零开始尝试全自动交易,采用机器学习等技术。2010年是一个转折点,当年股指期货和融资融券相继推出,A股投资更活跃和多样化。一时间,量化投资在国内私募基金业逐渐增加,报道称梁文锋团队也借此收益颇丰。
2015年,幻方量化正式成立,借助AI和数学进行量化投资。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。而在此之前,算法主要依靠线性模型和传统机器学习算法,模型计算主要依赖于CPU。
自此之后,幻方的量化策略全面AI化。到2017年底,几乎所有量化策略均已采用AI模型计算。随后不久,该公司明确宣布AI为主要发展方向。
所谓量化投资,指的是借助统计学和数学方法,利用计算机程序对大量数据进行分析,寻求获得超额收益的投资策略。在持仓风格上,量化投资倾向高度分散和多样化配置,以降低单一资产波动的风险。在决策上,不同于传统的依靠基金经理主观判断,量化公司是基于数据和模型进行交易。
全面AI化也带来某些问题,比如复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方量化需要解决大规模算力的受限难题。在这个背景下,幻方量化在2019年成立了一家AI基础研究公司,并推出自研的“萤火一号”AI集群,搭载500块显卡。同一年,幻方量化规模扩张,跻身百亿私募。2021年,幻方又斥资10亿元加码建设“萤火二号”,为AI研究提供算力支持。
从事后来看,幻方量化在构建AI算力过程中的“囤卡”动作,为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,在ChatGPT爆发前夜,幻方量化手中的英伟达显卡数量就越攒越多。据幻方量化称,在2022年时,其用于科研支持的闲时算力高达1533万GPU时,这意味着每天用于科研而非交易的算力便达4.2万GPU时。这个水平,大大超越了后来的很多大模型公司。
DeepSeek,就是在这样的加持下问世。
也交过学费
幻方量化上演了一个“一朝成名天下知”的精彩故事,在它的叙事版本里,无论做金融交易还是进军大模型,都是比较纯粹的技术向追求。
一位接近幻方量化的投资人士告诉时代周报记者,他一直很关注这家公司,并且和团队成员有过交流。虽然没有直接接触过创始人本人,但能感觉出来,相对于商业盈利,这个团队的技术理想色彩是更为浓厚的。
幻方量化希望通过AI量化交易,对金融资产进行定价和投资。金融交易足够复杂,又是从起家就介入的领域,对于旨在实现通用人工智能(AGI)的幻方量化而言,这是一个非常合适的切入场景。
早在2020年,点拾投资创始人朱昂曾访谈过幻方量化CEO陆政哲。彼时陆政哲称,幻方量化将自己定义为一家完全依靠AI来做投资的对冲基金。其模型数据来源有三个,分别是行情数据、覆盖全市场的基本面数据以及经过结构化处理的另类数据。用这三类数据来训练机器模型,据此构建投资组合,再用精细化的程序化交易完成交易。
这套打法确实效果显著,在2017年-2020年间,整个量化行业高速增长,幻方量化的管理规模也水涨船高。不过,量化交易并非完美,幻方量化在这上面也吃过苦头。
2021年12月,由于业绩回撤达历史最大值,幻方量化就业绩不及格发文致歉。幻方量化称,其人工反复检视了AI的投资决策,认为AI选出来的股票从长期价值来说基本上没问题,但在买卖时点上确实做的不够好。尤其市场风格剧烈切换时,AI倾向于冒险博取更多收益,这进一步加大了回撤。
量化资管行业扩张太快,被认为是另一个原因。幻方量化认为,行业规模猛增,导致策略同质化严重,加大了整体操作的难度。因此,当时幻方量化着手控制总的规模,同时表态要加大对策略研究的投入,以重新获得市场优势。而在监管层面,2024年7月份融券业务相关政策发生重大调整,转融券业务暂停,并且融券保证金比例上调。此外,程序化交易被进一步强化监管。量化行业似乎告别一段野蛮发展期。
目前,梁文锋旗下有两家百亿私募,除了宁波幻方量化(股票策略),另外一家是浙江九章资产(多资产策略)。就业绩而言,据私募排排网数据,过去两年量化公司的风头仍然强势,如2023年百亿私募排行榜中,前十名中量化公司占据六席,在104家上榜私募中,九章资产和幻方量化的业绩分列32和33位。到2024年,量化私募的整体收益仍高于主观私募,除东方港湾(主观投资)牢牢把持行业首位之外,前三十名中量化或主观+量化的机构占据多数。不过,幻方量化的业绩同样算不上突出,仅排在第19位。
在私募排排网有业绩展示的12只产品中,幻方量化旗下产品2024年的收益均值为12.18%,收益中位数为13.02%。
“还需冷静看待”
某种程度上,DeepSeek应该是幻方量化的深度转型之作。成立之初,该公司就表示将专注在大模型上,从语言大模型到视觉大模型,再到多模态大模型,堪称步步为营。
过去一年多,从默默无闻到火爆出圈,DeepSeek经历了一条清晰的产品迭代之路。
在2024年5月之前,DeepSeek相继推出了DeepSeek Coder(免费且开源的首个模型)、DeepSeek LLM(第一个大语言模型),其中DeepSeek LLM包含670亿参数,在一个包含2万亿token(语言模型中用来表示单词或短语的符号)的数据集上进行训练。在中文表现上,该模型据称超越了当时的GPT-3.5。
这两款模型都没有引起波澜,直到随后发布的DeepSeek-V2,才让DeepSeek在圈中出名。DeepSeek-V2是混合专家(MoE)语言模型,包含总参数达到2360亿,每个token激活210亿个参数。在一些行业测试中,DeepSeek-V2有着不错的表现。
有意思的是,当时国内业界对这款模型似乎欠缺技术层面的关注。DeepSeek-V2之所以被注意到,是由于它在大模型行业掀起一场价格大战——DeepSeek在5月出宣布,DeepSeek-V2降价至每百万Tokens输入价格为1元、输出价格为2元,开发者还能获得500万Tokens的免费额度。
这个价格水平,大约相当于GPT-4 Turbo的七十分之一。
随即互联网大厂纷纷跟进,甚至不乏有厂家将价格降得比DeepSeek-V2还低。就在国内玩家为价格战打的火热时,有硅谷从业者发现,DeepSeek-V2采用的多头潜在注意力机制,有效提升了大模型的性能。
这或许是硅谷较早地正视这家中国初创公司。
据一位行业相关人士解释,多头潜在注意力机制是DeepSeek-V2提出的一种注意力架构,该架构可以显著降低推理过程中的KV缓存。所谓KV缓存,指的是在大模型的推理过程中,用于存储先前计算结果的一种技术。
到2024年底,DeepSeek继续迭代,推出了DeepSeek-V3模型。DeepSeek终于迎来它的GPT-3时刻。
今年1月20日,DeepSeek-R1发布,在数学、代码、自然语言推理等任务上,宣称性能对标OpenAI o1正式版。而它的蒸馏(将大模型的知识迁移到小模型中)小模型,也超越了OpenAI o1-mini。此外,在开源和闭源路线仍有争议的眼下,DeepSeek宣布R1开源,允许用户进行“模型蒸馏”,以促进技术共享。
DeepSeek-R1是一枚重磅炸弹,在性能上为全球业界瞩目之外,更重要的是——它的成本相比竞品大大降低。一周之后,DeepSeek趁热打铁,又推出开源多模态模型,被认为在文生图方面超越OpenAI的DALL-E3。至此,外界对DeepSeek的讨论关注,达到高潮。
与先进大模型保持相近的性能,并在训练成本、运行成本和服务定价上全面大幅下降,这是DeepSeek震撼科技圈的原因。在这样的现象级产品出现之前,过去两年多时间,由于AI业界对高性能显卡的追逐,英伟达被一路推上王座。无论在资本市场还是产业链,这个逻辑似乎已经确立,没料到DeepSeek横空出世,硬生生搅了局。
不过,这场冲击波能持续多久,还是个未知数。DeepSeek的势头固然很猛,但是否弥合了国产大模型与国际先进水平之前的技术代差,正在引发热议。另外,DeepSeek通过算法优化提升效率,是否就意味着对算力需求的明显减弱,下结论也太早。
喧闹之外,降温观察逐渐成为一种声音。“针对最近几天事情的发展,个人觉得还是冷静看待,肯定其取得的成就,但也要避免情绪化。”上述投资人士如此说道。
责任编辑:刘明亮
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
APP专享直播
热门推荐
法治课|93岁男子因强奸罪被判15年,为何能获监外执行 收起法治课|93岁男子因强奸罪被判15年,为何能获监外执行
- 2025年02月17日
- 08:29
- APP专享
- 扒圈小记
61,582
知名女演员已生女?冲上热搜!5个多月前刚官宣结婚
- 2025年02月17日
- 03:07
- APP专享
- 扒圈小记
1,902
阿根廷总统米莱被控欺诈
- 2025年02月17日
- 13:53
- APP专享
- 北京时间
1,645
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:55:27
贝斯特(sz300580)近日在接受调研时表示,为顺应市场发展趋势,公司将充分发挥“精密加工为特长、铸造产业为支撑、智能装备为驱动”的产业联动发展的核心竞争优势,构建三梯次产业发展战略:第一梯次产业,持续做实做强原有业务,并向增程式、混动汽车零部件拓展,夯实巩固公司业务基本盘;第二梯次产业,结合先发优势,定位电动汽车、氢燃料以及天然气燃料汽车核心零部件,夯实向新能源汽车零部件赛道的转型升级;第三梯次产业,充分利用现有资源,发挥公司竞争优势抢抓机遇,全面导入“工业母机”、“人形机器人(sz300024)”、“汽车传动”以及“自动化产业”等新赛道。 -
趋势领涨今天 11:00:54
岭南股份(sz002717)发布股价异动公告称,公司注意到网络上存在有关“公司和腾讯在人工智能、智慧文旅等领域合作”的诸多传闻。公司与腾讯之间的合作尚未取得实质性进展,也未有具体合作项目落地实施。 -
趋势领涨今天 10:56:20
最后两天!!!最后两天!!!最后两天!!!【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 09:52:39
光线传媒(sz300251)今日高开低走大幅收跌,全天振幅近40%,天量成交超223亿元,换手率超24%。盘后数据显示,买方五个席位均为东财活跃营业部,合计买入达8.84亿元;一机构净卖出3.3亿元,深股通净卖出2.61亿元。 -
数字江恩今天 09:52:01
在c的延伸过程中,这样的个股热点还会持续不断,直至c的完成,这个时间点应该在本周。但只要未能确认c延伸结构的破坏,大盘就依然允许新高,个股也允许发挥。 -
数字江恩今天 09:51:56
看5分钟图,大盘一直处于3140反弹abc的c延伸结构之中。目前出现了图上的两个白色方框,第一个宽度30个点,第二个宽度为40个点,c目前就靠这样反复震荡向上延伸,只要第二个方框不跌破,这个延伸就还未结束。反过来说也可以,第二个方框跌破,则c确立结束。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:51:43
板块来看,ai医疗持续向上,国产算力、云、ai应用都继续表现,农林牧渔今日也表现不错。而前面持续表现的影视动漫,今天则迎来了大幅回调,周末消息发酵的金融类,今天表现也不如人意 -
数字江恩今天 09:51:39
A股两市今日成交7501 + 11914 = 19415 亿人民币,属于持续温和放量。大盘今天先震荡回踩,然后尾盘拉回,总的来说在一个不到30点的窄幅区间震荡了一个W型分时结构,收涨9个点。个股方面,约70%的个股收红。 -
数字江恩今天 09:51:34
煎熬和享受都是延伸 -
北京红竹今天 09:38:54
3、1.94万亿全天成交额将近两万亿,配合上缠论的方向,后面的吃肉行情还会继续,只是要掌握好节奏,而且还不能格局。为啥不能格局?反正我持有的品种只要大涨我就卖,因为量化都是这么干的,大涨就卖,咱手动操作干不过它,等量化卖往下砸,还不如我主动大涨就卖呢。但这么大的成交额活跃度没问题,反复的跟量化对着干就行了。目前新的方向没有出现,而且资金已经明牌,就是高低切换,那就跟随市场切滞涨的DS、人形机器人(sz300024)和铜缆就好。