1月26日—27日,短短两天内,国内AI创业公司DeepSeek(深度求索)遭遇两次短暂宕机,DeepSeek将其归因为,新模型发布后导致访问量激增。
新模型指的是刚发布的推理大模型DeepSeek-R1,由此带来的访问量有多大?27日,DeepSeek在苹果美区应用商店下载量力压ChatGPT,登顶免费App下载排行榜。
几乎名不见经传的创业公司,一年多时间内成为大模型行业的“黑马”,是否意味着国内大模型迎来了弯道超车的机会?
好用又便宜
2024年12月,DeepSeek发布了新一代大语言模型V3,已引起行业不少讨论,但1月20日发布的R1,将DeepSeek的热度推向了高潮。
国外大模型排名榜单Arena最新测评显示,R1基准测试在全类别大模型中排名第三,其中在风格控制分类中与OpenAI o1并列第一,其竞技场得分达到1357分,甚至略超OpenAI o1。这也几乎意味着,DeepSeek-R1跻身全球最强大模型之列。
DeepSeek的官方测试也显示,R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。在各自小参数版本的模型比拼中,R1-32B与o1-mini的表现各有胜负,其中前者的数学推理明显优于后者。
DeepSeek-R1性能对齐OpenAI-o1。
DeepSeek的横空出世,让硅谷多位AI大佬刮目相看,无论是微软CEO还是OpenAI的投资人都公开表达,DeepSeek-R1作为开源模型在推理计算能力的出色表现,令人印象深刻。而《黑神话:悟空》主创成员冯骥在使用R1后指出了六大优势:强大、便宜、开源、免费、联网和本土。其中,便宜、免费、联网等优势全面超越了OpenAI、Meta、Google等AI巨头。
免费和联网都好理解,DeepSeek有多便宜?推理模型R1的API(编程接口)服务定价为每百万tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。大语言模型V3就更便宜了,每百万tokens仅需0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens为2元。DeepSeek的定价约等于Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
或许大家还记得,2024年5月国内大模型掀起了一股降价潮,不少大模型的API价格下调90%以上,DeepSeek便是第一家降价的大模型,也被称为AI界的“拼多多”。
展现本土技术优势
便宜又好用的大模型,为何诞生在一家成立仅1年半的创业公司?这就不能不提到,DeepSeek与生俱来的算力优势和技术优势。
天眼查信息显示,DeepSeek背后的实控人是梁文锋,他所创立的幻方量化是国内知名的量化私募基金,这也给DeepSeek打下了良好的算力基础。
不同于常规基金依赖基金经理,量化基金通过数量模型的计算寻找投资机会,因此对数据尤为敏感,其高频交易的特点更是离不开机器学习。为了从海量数据(14.210, -0.66, -4.44%)中挖掘投资机会,幻方量化早早开始囤积算力,先后斥资10亿元,在美国对芯片出口管制前购买了1万张英伟达A100型号GPU。机缘巧合下,幻方量化成为国内GPU算力最充足的企业之一。
DeepSeek登顶App Store美区榜首。
AI行业有条Scaling Law(规模化法则),指的是大模型的性能与其训练资源、数据集和参数规模存在正相关性,也就是说,算力越大、参数越多,训练出的大模型性能就越好。如果遵照Scaling Law的规则,幻方量化的算力基础,成了DeepSeek最大的王牌之一。
当然,光靠算力优势,DeepSeek显然无法与全球AI巨头抗衡。“DeepSeek爆火主要是创新的技术路线。”上海人工智能行业协会秘书长钟俊浩认为,架构机制、训练方法和管道并行算法等创新,展现了中国本土AI技术的潜力,颠覆了中国只是AI技术跟随者、应用方的传统认知。
根据DeepSeek公布的技术论文显示,R1在训练过程中实验了三种技术路径:直接强化学习、多阶段渐进训练和模型蒸馏,其中R1首次证明了直接强化学习的有效性。科技媒体在技术解读中打了个比方,面对同一道题目,大模型同时多次进行回答,系统将给每个答案打分,依照“高分奖励低分惩罚”的逻辑进行循环,最终得出更具优势的推理路径。
与此同时,Deepseek还采用了混合专家模型(MoE)创新架构,只需激活5%—10%的专家网络,大幅降低了大模型训练的算力要求,同时还采取了FP8混合精度训练,减少模型训练的显存占用量。
本着“该省省该花花”的训练思路,DeepSeek最新大语言模型V3的训练成本仅为558万美元,不足GPT-4o的二十分之一。
下一个赛道
从OpenAI o1开始,豆包、通义等都陆续发布了推理大模型DeepSeek-R1的加入,将这场推理竞赛推向白热化。
“人工智能技术的发展具有其内在逻辑,主要体现为实现从‘记忆’到‘思考’的跨越,一定程度上解决逻辑上的‘幻觉’问题。”钟俊浩认为,早期大模型的核心能力是海量知识的压缩存储与模式匹配,就像是“填鸭式”教育,把大量的知识都背出来,核心考核的是知识记忆的规模和调取的效率。“死记硬背”的模式有其优势,给答案很快,但是也有问题,看到的材料写什么就输出什么,缺乏深度思考,缺乏进一步的甄别判断能力,容易人云亦云。
而推理能力需要模型具备动态规划、因果推断和符号逻辑处理能力。OpenAI的o1通过改进架构和训练方法,使模型逐步从“鹦鹉学舌”转向“解题专家”。
在长文本交互和多模态的全球竞争中,国内大模型已经崭露头角,随着大模型推理能力的迭代,中国还有机会弯道超车。钟俊浩认为,高效利用计算资源、相对较低的成本,以及更高的市场活跃度,是国内训练推理大模型的优势所在。
“推理模式所需的处理数据量相对较小,对高性能集成电路算力芯片的需求强度相对减少。”他表示,国内面临高端算力芯片紧缺的难题,但推理大模型能更集约利用有限的算力资源,同时国内算力基础设施较为完备,训练硬件成本较低。
更重要的是,中国的人工智能市场处于开放竞争的状态,不仅有阿里、字节、商汤等大型AI厂商,还有阶跃星辰、MiniMax等高水平的AI创业企业,而美国则集中在微软、谷歌等巨头。更多市场参与者,就有更多创新想法,意味着市场更活跃。
此外,中国具有极强的政策引导能力。以上海发布“模塑申城”实施方案为例,进一步明确了“5+6”应用场景,为人工智能企业在推理方面的应用,拓宽了发展空间,从而引导市场形成,加速商业化进程。
上观新闻·解放日报原创稿件,未经允许严禁转载
作者: 查睿
微信编辑:泰妮
APP专享直播
热门推荐
DeepSeek遭受大量海外攻击,奇安信:面临前所未有安全考验,攻击将持续 收起DeepSeek遭受大量海外攻击,奇安信:面临前所未有安全考验,攻击将持续
- 2025年01月29日
- 11:20
- APP专享
- 记经典时刻
- 4,339
美一客机与直升机相撞坠河,有消息称,机上有约60名乘客
- 2025年01月30日
- 03:11
- APP专享
- 记经典时刻
- 3,129
冲上热搜!春晚总导演于蕾:希望观众对我们宽容一点
- 2025年01月30日
- 04:19
- APP专享
- 我是山河君
- 1,640
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨2025-01-28 01:20:24
不过,英伟达一天下跌就定义科技股的行情就此结束,这也有点太武断了,美股最大的优点就是流动性强,每次大跌以后,最终都会创出新高,所有,科技股的行情随后几天还需要继续观察,如果A股在开市以前不能收回跌幅,科技股节后还有承压。今天已经开启了放假模式,本来不想写文章的,主要是看见昨天市场杀的有些蹊跷,收盘以后通过数据分析,大盘是不应该杀跌的,节日期间只要不出现意外的利空,只要外围股市不再大跌,A股节后是有望阳包阴的,所以,建议大家安心过春节!最后祝大家新的一年似灵蛇蜕皮,褪去旧疾,迎来股市长红,全家幸福安康! -
趋势领涨2025-01-28 01:20:14
昨天大盘走势确实让人费解,两市个股全线下跌,重点是还有近百只个股跌停,说好的节前红包,结果都给幻方发了红包,不过经过盘后数据分析,昨天应该是某种势力在故意砸盘,节后大盘有望阳包阴!现在重点是科技股,昨晚美股科技股也是全线大跌,英伟达盘中大跌近20%,收盘大跌约17%,费城半导体指数大跌超9%。英伟达大跌的主要原因就是DeepSeek实现了弯道超车,发布了多款开源多模态人工智能(AI)模型。有人不懂DeepSeek为什么能够这么牛逼,能够让世界震惊,这里我们举一个例子说明。一家豪华大酒店高薪聘请了很多海外顶尖厨师,并购置了一系列高端厨具,要打造一道惊艳世人的美食,经过精心烹制,这道美食终于问世。重点是这道美食是世界上独一无二的,他想卖给谁就卖给谁,想卖多少钱就卖多少钱,甚至是阉割版,价格也不下降。现在没有想到的是,一家小餐馆利用现有的锅碗瓢盆,也做出了同样的美味佳肴,而且价格只有豪华大酒店价格的1/30,现在这家小餐馆将方案公布于众,你想吃可以随时进来,没有各种各样的门槛限制,于是豪华大酒店就垮塌了!这个豪华大酒店就是英伟达,而那个不起眼的小餐馆就是幻方大模型!不过,这里我们想说的是,幻方如果能把精力都集中在大模型国际竞争上,而不是把心思用在股市收割上,不要跟韭菜争那三瓜两枣,那才是名族英雄,你们说呢? -
趋势领涨2025-01-28 01:20:06
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
宋谈股经2025-01-27 07:21:04
今日共39股涨停,连板股总数8只,22股封板未遂,封板率为64%(不含ST股、退市股)。焦点股方面,机器人(sz300024)板块的高标冀东装备(sz000856)与冀凯股份(sz002691)双双上演“地天板”行情,但其余高位股大面积退潮,兴业科技(sz002674)、好想你(sz002582)、五洲新春(sh603667)、华联股份(sz000882)等人气股均跌停。 -
宋谈股经2025-01-27 07:11:26
1月27日收评:创业板指缩量跌2.73%,DeepSeek概念股逆势爆发1、市场全天走势分化,创业板指领跌。DeepSeek概念股集体爆发,每日互动(sz300766)、卓创资讯(sz301299)、每日互动(sz300766)、竞业达(sz003005)等多股涨停。AI智能体概念继续走强,新炬网络(sh605398)、垒知集团(sz002398)、美格智能(sz002881)、泛微网络(sh603039)等封板。下跌方面,算力硬件股持续走低,铜高速连接、CPO等方向领跌,华脉科技(sh603042)、新亚电子(sh605277)、瑞斯康达(sh603803)等跌停;机器人(sz300024)概念股下挫,宝塔实业(sz000595)、五洲新春(sh603667)等跌停。个股跌多涨少,沪深京三市超3300股飘绿,今日成交1.13万亿。截止收盘沪指跌0.06%,深成指跌1.33%,创业板指跌2.73%。2、板块概念方面,DeepSeek、AI智能体、银行、煤炭等板块涨幅居前,铜高速连接、机器人(sz300024)、CPO、液冷服务器等板块跌幅居前。3、两市共1783只个股上涨,45只个股涨停,3197只个股下跌,49只个股跌停,22只股票炸板,炸板率36%。 -
巨丰投资张翠霞2025-01-27 07:10:40
4小时运行结束,总结全天市场运行,1)A股龙年收官日,三大指数集体收跌,沪指跌0.06%,深证成指跌1.33%,创业板指跌2.73%,三市成交额超1.1万亿,复制12月底走势,预期红盘跨年跟跨界,但实际走势出现较大偏差,尾盘出现小幅恐慌抛售,主要长假因素,节后预期延续结构型行情;2)量能,沪深两市今日成交额11276亿元,较上个交易日12337亿元减少1061亿元;3)行业板块方面,以加权涨幅来看56家行业35家红盘,家居用品、银行、电力等板块涨幅居前;通信设备、矿物制品、通用机械等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~ -
数字江恩2025-01-27 07:09:31
考虑到长假影响,节后的解盘在假期最后一日再发。祝大家春节愉快!!【更多独家重磅股市观点请点击】 -
徐小明2025-01-27 07:04:26
祝大家新春快乐! -
徐小明2025-01-27 07:02:59
【盘中直播】语音课见 -
东方红陈晨2025-01-27 07:02:11
行了,都散了吧,准备去过年吧,股民最辛苦,坚守最后一个工作日,好好过年,放心,好好玩8天,8天之后,涛声依旧,大涨长红