“鲶鱼”梁文锋:左手幻方量化,右手DeepSeek

“鲶鱼”梁文锋:左手幻方量化,右手DeepSeek
2024年07月26日 11:01 聪明投资者
“对于技术人员来说,被follow是很有成就感的事。开源更像一个文化行为,而非商业行为。给予是一种额外的荣誉。”
“对于技术人员来说,被follow是很有成就感的事。开源更像一个文化行为,而非商业行为。给予是一种额外的荣誉。”“对于技术人员来说,被follow是很有成就感的事。开源更像一个文化行为,而非商业行为。给予是一种额外的荣誉。”

去年网上曾一度盛传,中国持有高性能GPU最多的机构不是人工智能公司,而是一家量化私募——也就是量化私募四巨头之一的幻方。

创始人梁文锋近年来也主导投资了多家AI公司。

其一手打造的DeepSeek,被硅谷称作“来自东方的神秘力量”,不仅被冠以“AI界拼多多”,让字节、腾讯、百度、阿里等大厂的大模型纷纷降价。

这位素来低调到网上都找不到几张照片的数学建模爱好者,还怀揣着自己的技术理想主义——“无论API,还是AI,都应该是普惠的、人人可以用得起的”,他说。

记得多年前,聪明投资者跟他围绕量化投资有过两次交流,彼时幻方规模不到50亿,正在进入快车道。问到当时他最想做的事情,他想了想说,想做一个开源的策略平台,让普通投资人都可以用。

这次采访中,梁文峰否认自己是为了打价格战去争夺用户,“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

国内的AI探索之路中,关心底层架构的人少,聚焦应用层的居多,因为后者更容易商业化变现。耗费巨大精力去做底层优化的例子很少,所以DeepSeek显得尤为特别。

梁文锋曾在《西蒙斯传》的序言中写道,“和很多新技术一样,量化投资刚出现的时候也是被嘲笑的对象,没有人相信计算机可以像人类一样进行投资。”

2015年之后,国内量化投资快速发展。也是在2015年的6月,幻方量化注册成立。

幻方量化包括九章资产和宁波幻方量化两部分。创始团队从2008年就已经开始致力于量化对冲领域的研究,2015年10月时成立了首只阳光私募基金产品。

之后规模扩张迅速,到2016年底时管理规模超过10亿,2017年管理规模30亿,2018年规模达60亿,至少在2019年中时,其规模已超100亿。

其后稳居国内量化私募“四巨头”。

公司旗下不仅有专门的基本面研究团队,也有人工智能团队。其在2016年首次上线运行AI策略,到2017年底时,投资策略全面AI化。

截至目前,7家中国的大模型创业公司中,DeepSeek是唯一一家未做To C应用的公司,还在选择开源路线,也没融过资。

浙江大学软件工程出身的梁文锋,带着他口中来自本土Top高校的应届毕业生,以及几位博士实习生组成的团队,如何让DeepSeek成为AI大模型的“鲶鱼”?

“暗涌Waves”围绕DeepSeek搭建背后的思考,对梁文锋的这次访谈非常难得,聪明投资者(ID: Capital-nature)分享给大家。

价格战第一枪是怎么打响的?

DeepSeekV2模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

梁文锋 我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

这个结果让你们意外吗?

梁文锋非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

5天后智谱AI就跟进了,之后是字节、阿里、百度、腾讯等大厂。

梁文锋智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。

因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

外部看来,降价很像在抢用户,互联网时代的价格战通常如此。梁文锋:抢用户并不是我们的主要目的。

我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。

在这之前,大部分中国公司都会直接copy这一代的Llama结构去做应用,为什么你们会从模型结构切入?

梁文锋如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。

但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。

这是scaleup到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。

这种代差主要来自哪里?

梁文锋首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。

另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。

大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。

这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。

过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。

ScalingLaw也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

真正的差距不是一年或两年,而是原创和模仿之差

为什么DeepSeekV2会让硅谷的很多人惊讶?

梁文锋在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。

但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

梁文锋创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。

我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?

梁文锋过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?

梁文锋在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。

开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

你怎么看类似朱啸虎的这种市场信仰派观点?

梁文锋朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。

但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

梁文锋我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。

很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

更多的投入并不一定产生更多的创新

现在的DeepSeek有一种OpenAI早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI和Mistral都有过从开源到闭源的过程。

梁文锋我们不会闭源。我们认为先有一个强大的技术生态更重要。

你们有融资计划吗?看有媒体报道,幻方对DeepSeek有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。

梁文锋短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。

很多人认为,做AGI和做量化是完全不同的两件事,量化可以闷声去做,但AGI可能更需要高举高打,需要结盟,这样可以让你的投入变大。

梁文锋更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。

你们现在不做应用,是因为你们没有运营的基因吗?

梁文锋我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。

长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。

当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。

但选择API的话,为什么选择DeepSeek,而不是大厂?

梁文锋未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。

但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。

梁文锋技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。

你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?

梁文锋说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现AGI。

目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。

你怎么看DeepSeek之外的6家大模型创业公司的终局?

梁文锋可能活下来2到3家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。

幻方时代,面对竞争的姿态就被评价为“我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?

梁文锋我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。

只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

一群做“高深莫测”事的年轻人

OpenAI前政策主管、Anthropic联合创始人JackClark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeekv2的是怎样一群人?

梁文锋并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?

梁文锋在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。

这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?

梁文锋DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。

探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。

听说DeepSeek对于卡和人的调集非常灵活。

梁文锋我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人,可以让一些非传统评价指标里优秀的人被选出来。

梁文锋我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

transformer诞生在谷歌的AILab,ChatGPT诞生在OpenAI,你觉得大公司的AILab和一个创业公司对于创新产生的价值有什么不同?

梁文锋不管是Google实验室,还是OpenAI,甚至中国大厂的AILab,都很有价值的。最后是OpenAI做出来,也有历史的偶然性。

创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。

transfomer诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。

梁文锋我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。

但创新首先需要自信。这种信心通常在年轻人身上更明显。

但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保DeepSeek就是做大模型的人的首选?

梁文锋因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。

因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

前一段OpenAI的发布并没有等来GPT5,很多人觉得这是技术曲线明显在放缓,也很多人开始质疑ScalingLaw,你们怎么看?

梁文锋我们偏乐观,整个行业看起来都符合预期。OpenAI也不是神,不可能一直冲在前面。

你觉得AGI还要多久实现,发布DeepSeekV2前,你们发布过代码生成和数学的模型,也从dense模型切换到了MOE,所以你们的AGI路线图有哪些坐标?

梁文锋可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。

但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。

数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。

另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。

你觉得大模型终局是什么样态?

梁文锋会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。

所有的套路都是上一代的产物

过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。

梁文锋王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。

现在你的精力最多放在哪里?

梁文锋主要的精力在研究下一代的大模型。还有很多未解决的问题。

其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek敢于专注在模型研究上是因为模型能力还不够吗?

梁文锋所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。

过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?

梁文锋幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方2015年后的部分,但其实我们做了16年。

回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?

梁文锋我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。

所以你对这件事也是乐观的?

梁文锋我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。

但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。

以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

编辑:伊娜

责编:艾暄

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-05 珂玛科技 301611 --
  • 08-05 巍华新材 603310 --
  • 07-26 龙图光罩 688721 18.5
  • 07-23 博实结 301608 44.5
  • 07-22 力聚热能 603391 40
  • 新浪首页 语音播报 相关新闻 返回顶部