DeepSeek，为何出自量化基金公司？|AI_新浪财经

爆火出圈，没那么偶然。

　　来源：时代周报　　

　　春节假期，泼天流量降到了DeepSeek的头上。

　　大概一周多之前，DeepSeek还算不上太有名气，在大模型圈之外，外界对它可能多是一头雾水。然而短短几天，其就一跃成为业界顶流，并闯进了公众视野。

　　因接连推出的两款大模型产品，DeepSeek在华尔街掀起风暴，美股科技股一度重挫。周二，英伟达单日蒸发近6000亿美元市值，博通和美光(99.52, 3.86, 4.04%)科技等芯片产业链股票也纷纷大跌。虽然周三英伟达反弹涨近9%，但DeepSeek带来的心理冲击并没消散。

　　“DeepSeek大模型在性能上比肩ChatGpt，可能意味着国产大模型实现突破，这对美股科技股造成了冲击。”前海开源基金首席经济学家杨德龙告诉时代周报记者。在他看来，科技股是美股牛市的主要推动力，但投资者担心其估值产生巨大泡沫。若一些新技术突破或新模型不需要消耗那么多的GPU，可能会引发像英伟达等公司的大幅下跌，从而导致美股科技股泡沫破裂。

　　作为一家成立不到两年的大模型公司，无论在融资、技术进展还是舆论层面，DeepSeek一向都动静不大。而它背后的公司幻方量化（一家头部量化私募），在此之前也仅是在私募圈出名。出人意料的是，一家私募和一家大模型初创公司，这样的少见组合诞生了“DeepSeek神话”——无疑令人倍感好奇。

　　这一切是怎么做到的？

　　潜行多年

　　如果从成立时间上看，DeepSeek并无特别之处。自2022年底ChatGPT发布之后，全球科技圈震动，随之一系列国产大模型创业项目面世。DeepSeek搭乘的也是这股潮流，2023年4月，幻方量化高调宣布进军大模型，三个月之后，DeepSeek作为独立公司成立。

　　但脱胎于幻方量化的DeepSeek，其实技术积累要更早。

　　幻方量化成立于2015年，创始人是梁文锋。在该公司官网上，赫然写着的是：使用AI投资的对冲基金。按照幻方量化的披露，在公司成立之前七八年时间，创始团队就在探索将技术应用于投资交易。当时量化投资在国内尚未流行，团队成员在这方面的经验同样寥寥，出于朦胧的市场感知和技术理想(25.84, 0.64, 2.54%)，梁文锋团队仍决定走上这条路。

　　在这一时期，幻方量化创始团队从零开始尝试全自动交易，采用机器学习等技术。2010年是一个转折点，当年股指期货和融资融券相继推出，A股投资更活跃和多样化。一时间，量化投资在国内私募基金业逐渐增加，报道称梁文锋团队也借此收益颇丰。

　　2015年，幻方量化正式成立，借助AI和数学进行量化投资。2016年，幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易，使用GPU进行计算。而在此之前，算法主要依靠线性模型和传统机器学习算法，模型计算主要依赖于CPU。

　　自此之后，幻方的量化策略全面AI化。到2017年底，几乎所有量化策略均已采用AI模型计算。随后不久，该公司明确宣布AI为主要发展方向。

　　所谓量化投资，指的是借助统计学和数学方法，利用计算机程序对大量数据进行分析，寻求获得超额收益的投资策略。在持仓风格上，量化投资倾向高度分散和多样化配置，以降低单一资产波动的风险。在决策上，不同于传统的依靠基金经理主观判断，量化公司是基于数据和模型进行交易。

　　全面AI化也带来某些问题，比如复杂的模型计算需求使得单机训练遭遇算力瓶颈，训练需求和有限的计算资源产生矛盾，幻方量化需要解决大规模算力的受限难题。在这个背景下，幻方量化在2019年成立了一家AI基础研究公司，并推出自研的“萤火一号”AI集群，搭载500块显卡。同一年，幻方量化规模扩张，跻身百亿私募。2021年，幻方又斥资10亿元加码建设“萤火二号”，为AI研究提供算力支持。

　　从事后来看，幻方量化在构建AI算力过程中的“囤卡”动作，为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一，在ChatGPT爆发前夜，幻方量化手中的英伟达显卡数量就越攒越多。据幻方量化称，在2022年时，其用于科研支持的闲时算力高达1533万GPU时，这意味着每天用于科研而非交易的算力便达4.2万GPU时。这个水平，大大超越了后来的很多大模型公司。

　　DeepSeek，就是在这样的加持下问世。

　　也交过学费

　　幻方量化上演了一个“一朝成名天下知”的精彩故事，在它的叙事版本里，无论做金融交易还是进军大模型，都是比较纯粹的技术向追求。

　　一位接近幻方量化的投资人士告诉时代周报记者，他一直很关注这家公司，并且和团队成员有过交流。虽然没有直接接触过创始人本人，但能感觉出来，相对于商业盈利，这个团队的技术理想色彩是更为浓厚的。

　　幻方量化希望通过AI量化交易，对金融资产进行定价和投资。金融交易足够复杂，又是从起家就介入的领域，对于旨在实现通用人工智能（AGI）的幻方量化而言，这是一个非常合适的切入场景。

　　早在2020年，点拾投资创始人朱昂曾访谈过幻方量化CEO陆政哲。彼时陆政哲称，幻方量化将自己定义为一家完全依靠AI来做投资的对冲基金。其模型数据来源有三个，分别是行情数据、覆盖全市场的基本面数据以及经过结构化处理的另类数据。用这三类数据来训练机器模型，据此构建投资组合，再用精细化的程序化交易完成交易。

　　这套打法确实效果显著，在2017年-2020年间，整个量化行业高速增长，幻方量化的管理规模也水涨船高。不过，量化交易并非完美，幻方量化在这上面也吃过苦头。

　　2021年12月，由于业绩回撤达历史最大值，幻方量化就业绩不及格发文致歉。幻方量化称，其人工反复检视了AI的投资决策，认为AI选出来的股票从长期价值来说基本上没问题，但在买卖时点上确实做的不够好。尤其市场风格剧烈切换时，AI倾向于冒险博取更多收益，这进一步加大了回撤。

　　量化资管行业扩张太快，被认为是另一个原因。幻方量化认为，行业规模猛增，导致策略同质化严重，加大了整体操作的难度。因此，当时幻方量化着手控制总的规模，同时表态要加大对策略研究的投入，以重新获得市场优势。而在监管层面，2024年7月份融券业务相关政策发生重大调整，转融券业务暂停，并且融券保证金比例上调。此外，程序化交易被进一步强化监管。量化行业似乎告别一段野蛮发展期。

　　目前，梁文锋旗下有两家百亿私募，除了宁波幻方量化（股票策略），另外一家是浙江九章资产（多资产策略）。就业绩而言，据私募排排网数据，过去两年量化公司的风头仍然强势，如2023年百亿私募排行榜中，前十名中量化公司占据六席，在104家上榜私募中，九章资产和幻方量化的业绩分列32和33位。到2024年，量化私募的整体收益仍高于主观私募，除东方港湾（主观投资）牢牢把持行业首位之外，前三十名中量化或主观+量化的机构占据多数。不过，幻方量化的业绩同样算不上突出，仅排在第19位。

　　在私募排排网有业绩展示的12只产品中，幻方量化旗下产品2024年的收益均值为12.18%，收益中位数为13.02%。

　　“还需冷静看待”

　　某种程度上，DeepSeek应该是幻方量化的深度转型之作。成立之初，该公司就表示将专注在大模型上，从语言大模型到视觉大模型，再到多模态大模型，堪称步步为营。

　　过去一年多，从默默无闻到火爆出圈，DeepSeek经历了一条清晰的产品迭代之路。

　　在2024年5月之前，DeepSeek相继推出了DeepSeek Coder（免费且开源的首个模型）、DeepSeek LLM（第一个大语言模型），其中DeepSeek LLM包含670亿参数，在一个包含2万亿token（语言模型中用来表示单词或短语的符号）的数据集上进行训练。在中文表现上，该模型据称超越了当时的GPT-3.5。

　　这两款模型都没有引起波澜，直到随后发布的DeepSeek-V2，才让DeepSeek在圈中出名。DeepSeek-V2是混合专家（MoE）语言模型，包含总参数达到2360亿，每个token激活210亿个参数。在一些行业测试中，DeepSeek-V2有着不错的表现。

　　有意思的是，当时国内业界对这款模型似乎欠缺技术层面的关注。DeepSeek-V2之所以被注意到，是由于它在大模型行业掀起一场价格大战——DeepSeek在5月出宣布，DeepSeek-V2降价至每百万Tokens输入价格为1元、输出价格为2元，开发者还能获得500万Tokens的免费额度。

　　这个价格水平，大约相当于GPT-4 Turbo的七十分之一。

　　随即互联网大厂纷纷跟进，甚至不乏有厂家将价格降得比DeepSeek-V2还低。就在国内玩家为价格战打的火热时，有硅谷从业者发现，DeepSeek-V2采用的多头潜在注意力机制，有效提升了大模型的性能。

　　这或许是硅谷较早地正视这家中国初创公司。

　　据一位行业相关人士解释，多头潜在注意力机制是DeepSeek-V2提出的一种注意力架构，该架构可以显著降低推理过程中的KV缓存。所谓KV缓存，指的是在大模型的推理过程中，用于存储先前计算结果的一种技术。

　　到2024年底，DeepSeek继续迭代，推出了DeepSeek-V3模型。DeepSeek终于迎来它的GPT-3时刻。

　　今年1月20日，DeepSeek-R1发布，在数学、代码、自然语言推理等任务上，宣称性能对标OpenAI o1正式版。而它的蒸馏（将大模型的知识迁移到小模型中）小模型，也超越了OpenAI o1-mini。此外，在开源和闭源路线仍有争议的眼下，DeepSeek宣布R1开源，允许用户进行“模型蒸馏”，以促进技术共享。

　　DeepSeek-R1是一枚重磅炸弹，在性能上为全球业界瞩目之外，更重要的是——它的成本相比竞品大大降低。一周之后，DeepSeek趁热打铁，又推出开源多模态模型，被认为在文生图方面超越OpenAI的DALL-E3。至此，外界对DeepSeek的讨论关注，达到高潮。

　　与先进大模型保持相近的性能，并在训练成本、运行成本和服务定价上全面大幅下降，这是DeepSeek震撼科技圈的原因。在这样的现象级产品出现之前，过去两年多时间，由于AI业界对高性能显卡的追逐，英伟达被一路推上王座。无论在资本市场还是产业链，这个逻辑似乎已经确立，没料到DeepSeek横空出世，硬生生搅了局。

　　不过，这场冲击波能持续多久，还是个未知数。DeepSeek的势头固然很猛，但是否弥合了国产大模型与国际先进水平之前的技术代差，正在引发热议。另外，DeepSeek通过算法优化提升效率，是否就意味着对算力需求的明显减弱，下结论也太早。

　　喧闹之外，降温观察逐渐成为一种声音。“针对最近几天事情的发展，个人觉得还是冷静看待，肯定其取得的成就，但也要避免情绪化。”上述投资人士如此说道。