来源:证券时报
大年初一,阿里发出大模型新年第一弹。
北京时间1月29日凌晨1点半,阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。
与Qwen2.5-Max进行对比的模型,就包括了最近火爆海内外的DeepSeek旗下的V3模型。受新模型的影响,1月28日阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。1月29日盘中再度大涨,收盘涨0.71%,收于96.715美元。

阿里新模型性能全球领先
阿里通义千问团队表示,Qwen2.5-Max采用超大规模MoE(混合专家)架构,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练。
据介绍,Qwen2.5-Max在知识、编程、全面评估综合能力的以及人类偏好对齐等主流权威基准测试上,展现出全球领先的模型性能。指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

同时,基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。
记者还注意到,除了发布Qwen2.5-Max以外,1月28日,阿里还开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。
受新模型的影响,1月28日和29日阿里巴巴美股拉升明显。Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。如果将阿里巴巴美股上市后的股价走势时间轴拉长,其股价在2020年摸到311.046美元的高位后,便进入了下行的通道。业内人士分析,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,或能形成类似去年北美云计算服务商的投资逻辑。
DeepSeek以外,大厂大模型也值得关注
最近几天,大家的注意力都在DeepSeek上,但有国内头部大模型厂商的核心技术骨干告诉证券时报记者,包括阿里通义千问、字节豆包、腾讯混元在内的互联网大厂大模型能力其实并不差,只是DeepSeek作为创业公司,和互联网大厂在发展战略上有所不同。DeepSeek作为纯技术驱动的公司,代码和训练方法完全开源,而互联网大厂往往出于商业化等方面的考量不会完全开源。
“DeepSeek出圈的原因主要还是跟金融市场相关。从基座能力上看,其实没有那么强,对我们的冲击也没有那么大。”该技术骨干告诉记者,美国股市上涨的逻辑主要是AI和英伟达芯片,但DeepSeek让人们发现可能不需要这么多英伟达的卡,就能做出来性能差不多的模型。“而且还开源了,所以DeepSeek才这么受关注。”该技术骨干表示。
与此同时,DeepSeek主要是在文本生成能力和理解能力方面比较强,尤其擅长中文语境下的长文本和复杂语境,DeepSeek V3和R1暂无多模态生成能力。有行业从业者向记者表示,以豆包等为代表的大厂模型都属于多模态大模型,在大语言模型基础上融合了图片、音频、视频等多种模态,对算力底座要求更高,不仅要支持大规模训练任务,还要确保端侧应用的实时性和高效性。
因此,DeepSeek除了通过创新架构与优化算法降低训练成本外,还能更加聚焦于大语言模型领域。一名国内大模型高管在分析DeepSeek的成功时就指出,有相对充裕的卡(算力资源),没有融资压力,前面几年只做模型不做产品,这些都让DeepSeek更加纯粹和聚焦,能够在工程技术和算法上有所突破。
前述国内头部大模型厂商的核心技术骨干还透露,1月22日字节发布的豆包大模型1.5Pro,在多个测评基准上领先于许多头部的模型,“我们的压力不来自于DeepSeek,而是豆包,只是豆包1.5Pro没有出圈,大家没注意到。”该技术骨干说。
DeepSeek面临“蒸馏”争议
记者注意到,字节研究团队还表示,豆包1.5Pro通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性,也即没有通过“蒸馏”其他模型来走捷径。
所谓“蒸馏”,指的是一种开发者用来优化小型模型的方法,是一种在深度学习和机器学习领域广泛应用的技术,简单理解就是用预先训练好的复杂模型输出的结果,作为监督信号再去训练另外一个简单的模型。这样可以大幅减少计算资源消耗,让小模型在特定任务中以低成本取得类似效果。
DeepSeek的技术文档表示,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。周二,白宫人工智能和加密货币事务负责人大卫·萨克斯在接受该媒体采访时宣称,DeepSeek“有可能”窃取了美国的知识产权才得以崛起。他还表示,未来几个月美国领先的人工智能公司将采取措施,试图防止“蒸馏”。据金融时报报道,OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。
不过多名业内人士表示,“蒸馏”虽然存在一定争议,但其实是大模型训练中一种常用的方法。由于训练复杂模型需要投入大量资源,并雇用专业人员教导模型如何生成符合人类表达方式的回答,耗钱耗时间,而“蒸馏”则可以避免这个问题。因此,无论是在中国还是美国,初创公司和学术机构使用ChatGPT等具有人类反馈优化的商业大语言模型输出数据来训练自己的模型,被视为一种普遍的、“默而不宣”的现象。
由中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中,研究者就提到除了Claude、豆包和Gemini之外,当前知名的开闭源大语言模型均表现出了较高的“蒸馏”水平。研究人员普遍认为,“蒸馏”能够使模型训练的效率更好、成本更低,但会使模型的独特性下降,且过度“蒸馏”也会导致模型性能下降。


APP专享直播
热门推荐
京东、美团相继宣布:将为全职骑手缴纳社保 收起京东、美团相继宣布:将为全职骑手缴纳社保
- 2025年02月19日
- 09:51
- APP专享
- 扒圈小记
6,954
事发上海!妻子被撞,丈夫拦停酒驾肇事逃逸者,致其十级伤残,被索赔30万,法院判了
- 2025年02月18日
- 14:18
- APP专享
- 扒圈小记
3,939
马云双任中国兵器工业集团总经理
- 2025年02月19日
- 03:55
- APP专享
- 北京时间
2,300

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 10:23:29
捷昌驱动(sh603583)公告称,公司股票连续三个交易日内日收盘价格涨幅偏离值累计超过20%,属于股票交易异常波动情形。经自查,公司目前生产经营活动正常,市场环境、行业政策未发生重大调整,生产成本和销售等情况没有出现大幅波动。公司控股股东及实际控制人不存在应披露而未披露的影响公司股价异常波动的重大信息。公司专注于线性驱动行业,生产的线性驱动系统广泛应用于智慧办公、医疗康护、智能家居等领域。公司主持的“领雁”研发攻关计划项目仍处于研发和测试阶段,目前尚未对市场进行批量供货,暂未形成收入。 -
趋势领涨今天 10:23:05
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:04:53
【南向资金今日净买入超103亿港元 阿里巴巴获净买入居前】南向资金净买入103.24亿港元。其中,阿里巴巴-W、快手-W、华虹半导体分别合计获净买入约28.30亿港元、8.13亿港元、7.35亿港元;美团-W、晶泰控股-P合计遭净卖出13.31亿港元、0.49亿港元。 -
数字江恩今天 09:45:35
这里昨日的急跌、今日的急涨都属于宽幅震荡结构,哪怕略为突破3366也不改变这个事实。宽幅震荡中,急跌不杀跌、急涨不追涨,今天修复之后,等待再次回踩,配合5分钟底背离和轮峰线的支持寻找机会。 -
数字江恩今天 09:45:27
这里先不看细节,直接看15分钟图。图上的3464-3418蓝色轮峰线是核心,3140的反弹abc突破蓝色轮峰线之后,只要不有效跌破轮峰线,维持之上震荡,其实都是宽幅震荡结构。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:45:17
今日最瞩目的板块当属人形机器人(sz300024)机器人(sz300024),此外,deepseek各个细分行业也在修复。无论是大盘,还是双创,还是国政2000都反V了昨日的中阴线实体部分。市场大悲后迎来大喜,大悲大喜后自然是各种观点的混乱。 -
数字江恩今天 09:45:11
A股两市今日成交6751 + 10459 = 17210 亿人民币,相比昨日缩量近800亿。大盘早盘1小时左右强力拉升,然后全天在20点内的小区间窄幅震荡,收涨27个点。个股方面,和昨日想法,超过85%的个股收红。7%以上大幅上涨个股家数也超过了昨日大幅下跌个股家数。 -
数字江恩今天 09:45:07
宽幅震荡忌追涨杀跌 -
趋势领涨今天 09:25:41
盘后再放利好,两部门:鼓励外资在华开展股权投资 引导更多优质外资长期投资我国上市公司;适时进一步扩大电信、医疗领域开放试点 研究制定有序扩大教育、文化领域自主开放实施方案。五部门印发《优化消费环境三年行动方案(2025—2027年)》 -
北京红竹今天 08:47:20
3、指数调整还没到位目前沪指五分钟级别三买还是没有出现,恒生科技指数和创业板也没有跌破防守线,昨天第一次洗盘,今天快速修复。对于指数来说,调整还没有完成,至少五个新低还没有。如果你是纯指数交易者,还要继续等。不过我在直播中也大家说过了,指数会有回落,但不谈大风险,定义为洗盘。目前指数的洗盘还没结束。