转自:新华财经
新华财经上海1月15日电(记者杜康、朱程)岁末年初,国内外主流大模型再次降价。DeepSeek-V3因其训练成本之低引发国内外热议,让行业开始反思,无限追逐更大算力集群、更多数据量是否是大模型优化唯一道路。伯克利大学NovaSky 团队Sky-T1-32B-Preview开源模型的发布,再次印证了高水平AI研发不需要天价预算。行业也由单方面的性能角逐,转向性能与实用性并重的发展趋势,更加注重性价比。
成本的降低,无疑将进一步加快大模型的场景落地。这同时也对大模型创业公司提出挑战。在与大厂的“价格”比拼中不具备优势的创业公司们,迫切需要寻找到一条差异化道路,避开互联网厂商的“射程”将是关键。
训练成本降低 效率成为行业关键词
日前,DeepSeek-V3因其训练成本之低引发行业热议。从其正式发布的技术报告来看,DeepSeek-V3完整训练只需2.788M H800 GPU小时,包括预训练、上下文长度外推和后训练。假设H800 GPU的租金为每GPU小时2美元,其总训练成本仅为557万美元。Deepseek也透露,上述成本不包括与架构、算法或数据相关的先前研究或精简实验的成本。
美国人工智能公司Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元。这意味着DeepSeek的成本只有GPT-4o的1/20。
训练成本降低的同时,DeepSeek-V3保持了高性能。根据其公告,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
为什么DeepSeek-V3能够实现低成本、高性能?“包括模型架构、基础设施优化、数据优化在内,我们看到DeepSeek-V3从端到端都进行了工程优化,叠加后呈现出很好的效果。”Gartner研究总监闫斌介绍,大模型进入公众视野大约时间尚短,只有两年多时间。期间,行业模型训练相对粗放,通过尽量多收集数据,建设更大的数据中心,以获得更好的训练结果,行业也用“Scaling Law”总结这一过程。
“DeepSeek-V3证明了,通过更好的工程化能力,我们可以通过相对较少的算力资源、较小的模型,也可以达到不错的训练效果。”闫斌说。“目前行业在数据和算法方面仍有优化空间,低成本的训练和高效推理应用或将是下一阶段大模型发展的方向之一。”
值得关注的是,伯克利大学NovaSky 团队也刚刚发布了Sky-T1-32B-Preview开源模型,在常见的推理和编码基准测试中,与OpenAI的o1-preview“平分秋色”。据称,其训练成本不到 450 美元,展示了以经济高效的方式复制高水平推理能力的可能性。
NovaSky 团队之所以能够以如此低成本进行模型训练,其关键之处包括使用了数据筛选机制,如通过QwQ-32B-Preview生成初始数据,通过GPT-4o-mini重写数据格式等。此外,NovaSky 团队选择了Qwen2.5-32B-Instruct作为基础模型进行训练。“这个项目证明了,高水平AI研发不需要天价预算。”行业人士评价道。
“效率是2025年大模型行业的关键词之一。除了少数公司有能力、有愿景用万卡,乃至十万卡继续追求顶级大模型,大多数公司未来要降本增效。事实上,优化注意力机制、采用MOE架构、降低模型激活的参数量等,都已经是很主流的降本方式。我们相信这会带来AI门槛的降低,以及技术的普及化,不仅体现在应用侧,还有研发侧。”瑞银证券中国软件(44.980, 1.38, 3.17%)分析师张维璇表示。
行业再降价 大模型创业公司将直面冲击
伴随着训练成本的降低,DeepSeek-V3 的API 价格目前为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。同时,DeepSeek提供了45天优惠价格体验期,在2025年2月8日之前,所有用户使用 DeepSeek-V3 API 的价格分别下降了 80%(输入命中)、50%(输入未命中)、75%(输出)。
事实上,2024年上半年中国大模型“价格战”的发起者,正是DeepSeek。
2024年5月,DeepSeek率先宣布降价,其发布的第二代MoE大模型DeepSeek-V2定为0.001元/千tokens的输入价格与0.002元/千tokens的输出价格。随后,智谱 AI、火山引擎、 阿里云、百度、科大讯飞(49.820, 2.46, 5.19%)、腾讯云等国内主要大模型厂商迅速跟进。DeepSeek甚至获得了一个新称号——AI界“拼多多”。
可以看到,2024年年底,除了DeepSeek-V3 新版本的推出以及API 价格调整,国内大模型其他厂商也在降价。2024年12月31日,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%,其中,Qwen-VL-Plus直降81%;更高性能的Qwen-VL-Max降幅高达85%。此前,在12月18日举办的火山引擎Force大会上,字节跳动推出的豆包视觉理解模型也宣布进行降价。
“大模型不断降价,无疑有利于吸引更多企业使用新的技术,为大模型创业公司提供了更大的市场。同时,这也对大模型创业公司构成了挑战。‘独角兽’们仅仅做到提升大模型能力还不够,还要不断优化算法,快速降低模型的推理成本。只有真正做到为用户提供更有性价比的大模型服务,才能赢得市场份额。”MiniMax副总裁刘华对记者表示。
经过一年多来的行业竞争,中国人工智能大模型的行业格局不断清晰,主要玩家从“百模大战”时代不断收敛。MiniMax与智谱AI、百川智能、月之暗面、阶跃星辰、零一万物6家行业“独角兽”企业估值均超10亿美金,被行业称为国内“大模型六小虎”;再加上关注度较高的幻方和面壁智能,以及互联网大厂中的字节、阿里、百度和腾讯,行业主要玩家缩减到十来家。
API接口调用付费是大模型企业B端重要商业化实现路径之一。不过,ToB业务中,由于互联网大厂可以将AI功能绑定算力和云服务业务,二者叠加商业推广上效率更高。因此,在“价格战”中,大厂因为业务复合、资金雄厚,也更有优势。面对“价格战”,创业公司只能化压力为动力,从加快迭代模型、不断优化算法中寻找解法。
“如果要拼低价和资源,创业公司肯定不如大厂。下一步,大模型创业公司可以聚焦在提供个性化服务,比如提供情感类大模型的API接口。”行业人士对记者表示。
“独角兽”们需差异化发展 避开互联网厂商“射程”
无疑,大模型训练成本、推理成本的下降,将进一步加快行业场景应用落地。事实上,寻找更合适的大规模落地场景、更好的商业闭环模式,已经成为大模型企业下一阶段发展的当务之急。
在接受采访时,多位行业人士提到上述提到的“大模型六小虎”开始出现分化,并表示有独角兽企业出现“掉队”的势头。“这也说明,大模型行业发展遇到了瓶颈。”行业人士评价道。
“从全球来看,大模型企业都面临一定的融资压力。大模型出现之初,大家对它的预期很高,后面又经历了预期的回调。与此同步,行业融资热度稍降。当然这也符合一项新技术的发展曲线。单纯通过讲故事已经很难找到投资人。”闫斌表示。
从B端应用来看,Gartner一份最新调研结果显示,截至2024年6 ⽉目前只有8%的中国企业将生成式人工智能部署在生产环境中。对此,闫斌解释称,目前大模型在中国企业生产场景中小规模落地已出现,但大规模企业落地仍然较为少见。“如果把最终落地应用比作一场考试,那么大模型能力、数据、工程化、产品设计将是几门关键课程。根据我们观察,国内很多大模型能力已经不错,目前落地短板更聚焦在其他几个方面。”
再来看C端落地。根据AI产品榜数据,目前用户量排名靠前的应用分别为抖音的豆包、MiniMax的Talkie AI、月之暗面的Kimi智能助手、百度的文小言,全球12月份的月活分别为7117万、2977万、1669万、1347万,在全球主要C端产品榜单中,分别位列第2位、第4位、第15位、第20位。
与创业“独角兽”们相比,“大厂”在C端应用推广上,展示出了流量和资本方面的巨大优势。字节2024年5月才推出AI对话助手“豆包”,凭借投流买量后来居上,成为过去半年增长最快的移动应用。“一些创业公司此前通过投流买量的方式迅速扩大了用户量。但随着‘大厂’下场,这种做法就显得不那么划算了。”有行业人士对记者表示。
“目前国内大模型企业的C端产品存在‘同质化’的问题,很多企业都推出了AI对话助手类产品,功能大同小异。但是,大模型技术在不断迭代。各家企业需要基于大模型能力的提升趋势,去探索新的AI产品形态,去满足客户们尚未被满足的需要。尤其是创业公司,更是要把资源聚焦于技术和产品的创新,而不是通过投流买量进入变成‘红海’的赛道。”刘华说。
编辑:王媛媛
APP专享直播
热门推荐
女歌手申烨去世年仅40岁,曾多次登上央视演出 收起女歌手申烨去世年仅40岁,曾多次登上央视演出
- 2025年01月23日
- 07:28
- APP专享
- 记经典时刻
- 1,405
小米汽车召回3.1万辆SU7标准版电动汽车
- 2025年01月24日
- 07:35
- APP专享
- 记经典时刻
- 1,196
小米召回近3.1万辆SU7,因软件影响智能泊车存安全隐患
- 2025年01月24日
- 07:40
- APP专享
- 我是山河君
- 1,108
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
数字江恩今天 09:41:46
其实春节前的下周只有一个交易日,更多的问题都可以节后再说。只是从技术面来看,春节前后一个交易日都处于a3之内,无非是继续向上攻击还是横盘震荡消化,都不存在这种的下跌。至于其后如何,都可以节后再说,毕竟长假的影响也需要考虑。 -
数字江恩今天 09:41:39
将5分钟级别和15分钟级别的推论,画到30分钟图上。那么3674后跌破三角形红色轮谷线,其后3140第一次反弹难以直接站上红色轮谷线。这次反弹之后还会重新回踩蓄势,方才能再有大级别的上涨动能。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:41:25
15分钟图来看,3140的反弹,在图上的3464-3418蓝色轮峰线是有压力的,哪怕最终略为突破轮峰线,也难以站稳。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:41:10
5分钟图来看,a3依旧没有结束,这一点在春节前后一个交易日都不会改变。其后可以参照图上的红色轮谷线支撑,若红色轮谷线不跌破,则大盘的a3还会继续冲高3286-3336压力区间;反之,若站不稳红色轮谷线,则a3将在3200-3286之间反复震荡用时间消化应有的力度。无论哪一种情况,春节前后都没有真正的下跌。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:40:54
板块来看,本周依旧是科技和机器人(sz300024)最强,前半周为硬件+机器人(sz300024)为主,而周四周五则是AI应用和算力这些细分为主。 -
数字江恩今天 09:40:48
A股两市今日成交4807 + 7413 = 12220 亿人民币,相对昨日缩量约1300亿。本周大盘略微缩量在3203-3273的70个点间震荡,向上攻击了5周均线,最后收盘在5周均线附近。目前5周线3254,10周线3303也是节前最后一个交易日的压力。 -
数字江恩今天 09:40:41
春节前后行情预判 -
波段擒龙今天 07:14:02
A股三大指数今日集体上涨,截至收盘,沪指涨0.70%,深成指涨1.15%,创业板指涨1.36%,北证50指数涨0.60%。全市场成交额12337亿元,较上日缩量1357亿元。全市场超3900只个股上涨。板块题材上,AI智能体、机器人(sz300024)、铜缆高速连接板块涨幅居前,白酒、房地产板块跌幅居前。 -
宋谈股经今天 07:10:38
1月24日收评:沪指缩量反弹涨0.7%,AI智能体概念集体爆发1、市场全天缩量反弹,创业板指领涨。AI智能体概念集体爆发,汉得信息(sz300170)、杰创智能(sz301248)、思特奇(sz300608)、新炬网络(sh605398)、南兴股份(sz002757)等多股封板。机器人(sz300024)概念股反复活跃,晋拓股份(sh603211)、中大力德(sz002896)、冀东装备(sz000856)、祥鑫科技(sz002965)等多股涨停。下跌方面,房地产板块走低,中交地产(sz000736)、荣盛发展(sz002146)跌停。个股涨多跌少,沪深京三市近4000股飘红,今日成交1.23万亿。截止收盘沪指涨0.7%,深成指涨1.15%,创业板指涨1.36%。2、板块概念方面,AI智能体、软件开发、机器人(sz300024)、铜高速连接等板块涨幅居前,房地产、多元金融、中药、油气等板块逆势下跌。3、两市共3783只个股上涨,73只个股涨停,1147只个股下跌,30只个股跌停,9只股票炸板,炸板率12%。 -
巨丰投资张翠霞今天 07:08:15
4小时运行结束,总结全天市场运行,1)除北交所外其余指数全部低开高走收光脚阳线,护盘+看好节后行情,且沪指收盘点位3256点下方,收一根周线假阴线,因节前只剩一个交易日,一天定周线,收涨概率较高,反包中阳概率较高,标准的反包修复组合K线;2)量能,沪深两市今日成交额12337亿元,较上个交易日13695亿元减少1358亿元;3)行业板块方面,以加权涨幅来看56家行业50家红盘,软件服务、互联网、通用机械等板块涨幅居前;供气供热、房地产、酿酒等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~