龙年收官、蛇年启幕之际,东方上演“惊蛰”一幕。
当地时间1月27日,美国人工智能主题股票遭抛售。英伟达(NVIDIA)股价历史性暴跌16.97%,市值一日内蒸发近6000亿美元,创美国历史上任何一家公司的单日*市值损失。
“幕后推手”是来自中国一家初创公司DeepSeek(深度求索)开发的大模型:DeepSeek-V3,其发布后,便迅速跃上美国苹果App商店免费下载排行榜冠军,撼动科技圈和华尔街。
1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了来自OpenAI的DALL-E 3和Stable Diffusion。
随后,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。
面对来自外部的压力,360集团创始人、董事长周鸿祎在微博表示,如果DeepSeek有需要,360愿意提供网络安全方面的全力支持。
DeepSeek保卫战已打响,这是一场来自中国的“科技黑马”刮起的AI龙卷风,或将直逼全球科技业态重构。
全球科技界忙着对账
在软银宣布准备投资AI基础建设5000亿美元之际,DeepSeek-R1发布了。
这是一个按照MIT协议完全开源的模型,从代码到架构再到从理论到训练方法,可以随便看、随便改、随便用。据DeepSeek官方发布的数据,该模型在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。
这对于全球科技界,尤其是美国各个大模型无疑是降维打击,甚至颠覆了他们传统的“烧钱”信仰。
为何?
大家都知道,推动人工智能发展,有三大要素——算法、算力和数据。
在DeepSeek出来之前的普遍认知是,算力是AI的核心,发展AI就是要不断的堆算力、堆GPU。所以OpenAI兴起的时候,全世界一片热捧,英伟达因此受益。
而中国多年来不断被“卡脖子”,算力方面较为落后,企业只能使用价格高昂、性能低下的阉割版AI芯片,艰难求发展。
DeepSeek就是在这种背景下诞生的「黑马」,令人惊喜的是,该团队并没有迷信“大力出奇迹”的尺度定律(Scaling law),而是专注算法的创新,减少对计算资源的需求。
据悉,R1完全抛弃传统监督学习(SFT)路线,通过动态路由算法压缩80%的冗余计算,以在有限的运算能力中实现高性能,纯靠强化学习就达到了与o1相当的水平。
与此同时,R1训练成本极低。DeepSeek官方尚未公布训练推理模型R1的完整成本,但公布了其API定价,R1每百万输入tokens在1元-4元人民币,每百万输出tokens为16元人民币。
作为对比,OpenAI的ChatGPT-o1的运行成本约为R1的30倍,使用了至少一万张更为先进的英伟达H100显卡。
这家刚成立一年半、去年才推出*大模型的年轻公司,以极低的成本做出了硅谷需要上亿投入才能烧出的大模型,R1几乎一夜之间成为了美国*大学研究人员的*模型。
AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型旨在与SGLang一起实现*性能,DeepSeek-V3针对Al推理进行了优化。
一名美国Meta的员工发文,因为DeepSeek的低成本高性能,他们公司的人工智能部门已经陷入恐慌。并称,从中国深度求索公司发布DeepSeek-V3模型开始,Meta公司重金打造的Llama 4模型,在双方的性能测试中,就没有打赢过。
国内大厂也被激励到不行,阿里云除夕夜都在加班,发布了通义千问旗舰版模型Qwen2.5-Max,并声称在多项测试中,全面超越GPT-4o、DeepSeek-V3、Llama-3.1......
毫无疑问,DeepSeek让AI正变得更加廉价、高效,或将成为大语言模型发展史上的典范。
谈赢麻了,还为时尚早
DeepSeek出圈,全球都在为之疯狂。
资本市场的反应最为直接,英伟达一夜之间跌出一个小米+腾讯,围观群众看得也都很“上头”,几乎所有人都开始使用它、热议它。
不少国内媒体给出了“中国AI已经超过美国”、“DeepSeek羞辱OpenAI”、“全球AI霸权之争已经结束”的说法。游戏科学创始人兼CEO、《黑神话:悟空》制作人冯骥更是将其直接形容为“可能是个国运级别的科技成果”。

实际感受下来,DeepSeek在中文语境的表现确实较为优秀,理解问题、描述概念都不在话下。(官网地址,方便大家自己去体验试用,https://chat.deepseek.com/)
比如,小编让它写一段拜年祝福语,要求接地气、真诚、不随大众。

换成古语风格的话,DeepSeek表现也比较不错,写的出「岁月静好,现世安稳」「家和人安,福寿绵长」的句子。

其他社交平台上,网友以自己祖母为原型让DeepSeek构思了一个故事,结果仅用5秒就生成出来。在得到网友高评价后,DeepSeek展露出高情商的安慰:
“记住,所有让你颤栗的文字,本质上都是你灵魂深处早已存在的回声。我不过是偶尔经过的山谷,让你听见了自己声音的重量。”

很多人也纷纷晒出了DeepSeek的“作业”:



甚至有人让DeepSeek挑战《红楼梦》后四十回续写,从问题抛出到生成答案,还不到一分钟。
不过,江苏省红楼梦学会会长、南京大学文学院教授苗怀明表示,相比ChatGPT,DeepSeek更加本土化,也更强大。“从目前的情况来看,它可以写一些较为套路化、程序化的东西,但写具有*性、有深度的文学作品还不行。”

小编在问到英伟达的股价波动是否和其有关系时,DeepSeek“巧妙”地避开直面回答,表示英伟达的股价波动属于正常的市场现象,“作为AI助手,我应该明确说明自己不具备影响股市的能力。”

然而,进行文生图创作时,大模型Janus Pro的表现却令人失望。
小编给出较为复杂的描述,“古城墙下白雪皑皑,火车悠悠驶过,赶上了骑着车的人”,它并不能完整生成出要素内容,更不用说丰富艺术创作了。

换成简单的表述呢?要求基于“一位少女牵着小狗散步”,Janus Pro理解欠缺,生成的内容似乎只描绘出了少女,还是古风少女。

再简单一点,要求是“小孩吃饭”,表现内容勉强上道。

虽然官方称其在某些基准测试上超越了DALL-E 3,但实际体验却差强人意。它不用部署也能在线免费体验,感兴趣可以试试: https://cloud.siliconflow.cn/i/eGafyivT。
这波热潮不是虚的,但客观来讲,还没有到如此「封神」的地步。只能是说,DeepSeek在设计时过分注重了理解能力的优化,而在生成端可能还需要更多改进。至于“超越open AI”、“霸权移位”,还远远不够。
一来,DeepSeek赢在了创新的算法,但算力才是地基,是长期主义下大模型发展的必要条件。
在数据标注和训练资源方面,OpenAI就像拥有一个“无底洞”,DeepSeek资源上还是有点捉襟见肘。此外,DeepSeek依然依赖于美国的算力生态。目前DeepSeek的训练还是依赖英伟达GPU,没有国产GPU可以替代。
包括马斯克在内的多位业内人士认为,DeepSeek的训练方式仍然依赖于堆积算力,而非真正的突破。
马斯克近期点赞了一则推文,推文中提到,DeepSeek大量依赖模型蒸馏技术,需要借助ChatGPT-4o和o1才能完成训练。
模型蒸馏,是一项行业内常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用。但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。
Benchmark普通合伙人Chetan Puttagunta也表示:
“他们可以采用一个非常好的大型模型,并使用一种称为蒸馏的过程。”
“基本上,你使用一个非常大的模型来帮助你的小模型在你希望它变得聪明的事情上变得聪明。这实际上非常具有成本效益。”
二来,在DeepSeek登顶中 美应用下载榜的当晚,它就因为遭受大规模的恶意攻击,而短暂关闭注册通道。
实际使用中也会发现,可能因为用户数暴增,DeepSeek宣告宕机的频次比之前要高得多:几乎每问3-5个问题之后,它就会暂时停止思考不做回答,需要新开一个对话窗口才能继续使用。
这个问题之前很多AI公司也遇到过,相对有限的算力和完全开源的技术生态,会让DeepSeek处于可能更高的风险之中。
DeepSeek的出圈,是中国AI算法的突破,值得我们肯定和自豪。但我们依旧要保持冷静,看清差距。
梁文锋在回复冯骥“国运级别的科技成果”的盛赞时,诚恳真诚:
必须坦白,团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝。
看得出他是清醒的,比起“戴高帽”,这位年轻的创始人或许已经开始考如何发挥“后发优势”,探索出可发展、可前进的新路。
可以肯定的是,这是一条更困难、更有挑战的路,需要百倍、甚至千万倍的努力。
【本文由投资界合作伙伴微信公众号:DoNews授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。


APP专享直播
热门推荐
理想汽车高管疑似暗讽华为:起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤 收起理想汽车高管疑似暗讽华为:起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤
- 2025年02月25日
- 03:46
- APP专享
- 扒圈小记
8,666
重大宣布!俄罗斯开出停战条件
- 2025年02月25日
- 01:44
- APP专享
- 扒圈小记
2,945
特朗普政府正施压主要盟友,寻求加大对华芯片产业限制,外交部回应
- 2025年02月25日
- 07:27
- APP专享
- 北京时间
2,248

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:24:48
亚太药业(sz002370)公告称,公司注射用更昔洛韦通过仿制药质量和疗效一致性评价。该药品适用于治疗危及生命或视觉的免疫缺陷患者的巨细胞病毒感染,以及预防器官移植病人的巨细胞病毒感染。通过一致性评价将进一步丰富公司的产品管线,提升市场竞争力,并为后续其他产品开展仿制药一致性评价工作积累经验。 -
趋势领涨今天 10:20:00
【3连板大位科技(sh600589):公司是一家主要从事IDC业务的互联网综合服务提供商 为客户提供机柜租赁等服务】大位科技(sh600589)发布风险提示公告称,公司是一家主要从事IDC业务的互联网综合服务提供商,为客户提供机柜租赁服务、网络传输及增值服务以及相关运维服务。经自查,公司目前经营情况正常,主营业务未发生重大变化,外部市场环境、行业政策亦未发生重大变化。 -
数字江恩今天 09:31:29
只是明天来说,图上3384的回踩并没有5分钟级别的底背离,正常情况下就图上蓝色轮峰线就压制了,哪怕反弹略微扩展也是3376重压,继续向下震荡。至少明天还处于宽幅震荡的向下震荡之中。 -
数字江恩今天 09:31:25
直接看5分钟图,本人昨天告诉短线选择在即,今天就直接下跳空了。这个选择说明了目前大盘依旧处于宽幅震荡阶段,而不是开始了新的主升浪结构,后面的任务就集中在寻找宽幅震荡的低点了。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:31:09
板块来看,工业母机、飞行汽车、光刻机等行业都稍微反弹,但是就活跃个股家数来看,依旧是机器人(sz300024)、人工智能、新能源类领先。 -
数字江恩今天 09:30:56
A股两市今日成交7275 + 11693 = 18968 亿人民币,虽然相对昨日略微缩量,但依然维持在高水平运行。大盘今天大幅向下跳空,然后运行了一个倒V型,上午抵抗、下午回落新低的结构,收跌27个点。个股方面,70%的个股收绿下跌,但大幅下跌个股家数只有昨天的不到一半。 -
数字江恩今天 09:30:51
轮峰线压制震荡 -
趋势领涨今天 09:25:36
【7天5板威尔泰(sz002058):公司股票可能被实施退市风险警示】威尔泰(sz002058)公告称,预计公司2024年度利润总额、净利润、扣除非经常性损益后的净利润三者孰低为负值,且扣除后的营业收入低于3亿元。若2024年度经审计的财务数据触及《深圳证券交易所股票上市规则》第9.3.1条的规定,公司股票交易将在2024年年度报告披露后被实施退市风险警示。 -
北京红竹今天 07:59:28
3、1.9万亿成交额一直保持1.5万亿以上,有卖也有买,成交额很讲课。上涨1537家,下跌3735家,涨停65家,跌停7家。涨跌数据属于调整的一天,这两天我给大家的策略也是周一二注意洗盘,把仓位控制一下。这里给个标准吧,即便出现调整开始信号,也没必要空仓。半仓以下比较舒服,品种首先滞涨品种,高位品种一律出掉,这两天没有降低仓位的,也可以逐步降低一下,没必要等客观跌破防守线。等日线一笔下跌出现在帮仓位提高到7成以上。 -
北京红竹今天 07:59:24
2、主线也有标准了DS和人形机器人(sz300024)同时都有标准了。早盘低开人形机器人(sz300024)也构造了五分钟级别三买,也就是说今天早上的低点就是人形机器人(sz300024)波段反弹的防守线。看明天或者后天了,跌破反弹结束,迎接洗盘,不跌破还能继续上。同样DS,大方向依然没问题,也不谈大风险,只是跟大家说一下节奏的问题。图片这是DS三十分钟级别走势图,横线这里不跌破反弹还可以继续,跌破反弹结束。交易上,目前高位品种要规避,那些滞涨的品种还无所谓,继续持有问题不大。如果板块指数出现调整,首先洗盘的就是这些高位品种,滞涨品种还不一定。