记者|周春媚
1月29日凌晨1点半,阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。
与Qwen2.5-Max进行对比的模型,就包括了最近火爆海内外的DeepSeek旗下的V3模型。受新模型的影响,阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。
![](http://n.sinaimg.cn/sinakd20250129s/404/w1078h926/20250129/0418-01d659621c4730c59abd783edc64138a.png)
最近几天,DeepSeek冲击了美股的投资逻辑,导致英伟达等巨头股价大幅震荡。
据央视新闻消息,当地时间1月28日,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。
就在前一天,美国总统特朗普还称DeepSeek是很积极的技术成果。
无论是在硅谷、华尔街及白宫掀起轩然大波的DeepSeek,还是阿里通义千问新发布的大模型,国产大模型最近的密集创新成果表明,中国人工智能的进步与追赶,已经极大程度改变了全球AI的行业格局。
![](http://n.sinaimg.cn/sinakd20250129s/310/w1000h110/20250129/181f-gif8dc938188c7b218f17f5d78ab0aebb2f.gif)
01
阿里新模型性能全球领先
阿里通义千问团队表示,Qwen2.5-Max采用超大规模MoE(混合专家)架构,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练。
据介绍,Qwen2.5-Max在知识、编程、全面评估综合能力的以及人类偏好对齐等主流权威基准测试上,展现出全球领先的模型性能。指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
![](http://n.sinaimg.cn/sinakd20250129s/109/w1080h629/20250129/3e70-cecf7c626f356f3e8f90c94f9825fdba.png)
同时,基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。
记者还注意到,除了发布Qwen2.5-Max以外,1月28日,阿里还开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。
![阿里巴巴股价走势](http://n.sinaimg.cn/sinakd20250129s/37/w975h662/20250129/6842-c2ee1b94da72e17b61c8366891185336.png)
受新模型的影响,阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。如果将阿里巴巴美股上市后的股价走势时间轴拉长,其股价在2020年摸到311.046美元的高位后,便进入了下行的通道。业内人士分析,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,或能形成类似去年北美云计算服务商的投资逻辑。
![](http://n.sinaimg.cn/sinakd20250129s/310/w1000h110/20250129/181f-gif8dc938188c7b218f17f5d78ab0aebb2f.gif)
02
DeepSeek以外
大厂大模型也值得关注
最近几天,大家的注意力都在DeepSeek上,但有国内头部大模型厂商的核心技术骨干告诉证券时报记者,包括阿里通义千问、字节豆包、腾讯混元在内的互联网大厂大模型能力其实并不差,只是DeepSeek作为创业公司,和互联网大厂在发展战略上有所不同。DeepSeek作为纯技术驱动的公司,代码和训练方法完全开源,而互联网大厂往往出于商业化等方面的考量不会完全开源。
“DeepSeek出圈的原因主要还是跟金融市场相关。从基座能力上看,其实没有那么强,对我们的冲击也没有那么大。”该技术骨干告诉记者,美国股市上涨的逻辑主要是AI和英伟达芯片,但DeepSeek让人们发现可能不需要这么多英伟达的卡,就能做出来性能差不多的模型。“而且还开源了,所以DeepSeek才这么受关注。”该技术骨干表示。
与此同时,DeepSeek主要是在文本生成能力和理解能力方面比较强,尤其擅长中文语境下的长文本和复杂语境,DeepSeek V3和R1暂无多模态生成能力。有行业从业者向记者表示,以豆包等为代表的大厂模型都属于多模态大模型,在大语言模型基础上融合了图片、音频、视频等多种模态,对算力底座要求更高,不仅要支持大规模训练任务,还要确保端侧应用的实时性和高效性。
因此,DeepSeek除了通过创新架构与优化算法降低训练成本外,还能更加聚焦于大语言模型领域。一名国内大模型高管在分析DeepSeek的成功时就指出,有相对充裕的卡(算力资源),没有融资压力,前面几年只做模型不做产品,这些都让DeepSeek更加纯粹和聚焦,能够在工程技术和算法上有所突破。
前述国内头部大模型厂商的核心技术骨干还透露,1月22日字节发布的豆包大模型1.5Pro,在多个测评基准上领先于许多头部的模型,“我们的压力不来自于DeepSeek,而是豆包,只是豆包1.5Pro没有出圈,大家没注意到。”该技术骨干说。
![](http://n.sinaimg.cn/sinakd20250129s/310/w1000h110/20250129/181f-gif8dc938188c7b218f17f5d78ab0aebb2f.gif)
03
DeepSeek面临“蒸馏”争议
记者注意到,字节研究团队还表示,豆包1.5Pro通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性,也即没有通过“蒸馏”其他模型来走捷径。
所谓“蒸馏”,指的是一种开发者用来优化小型模型的方法,是一种在深度学习和机器学习领域广泛应用的技术,简单理解就是用预先训练好的复杂模型输出的结果,作为监督信号再去训练另外一个简单的模型。这样可以大幅减少计算资源消耗,让小模型在特定任务中以低成本取得类似效果。
DeepSeek的技术文档表示,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。周二,白宫人工智能和加密货币事务负责人大卫·萨克斯在接受该媒体采访时宣称,DeepSeek“有可能”窃取了美国的知识产权才得以崛起。他还表示,未来几个月美国领先的人工智能公司将采取措施,试图防止“蒸馏”。据金融时报报道,OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。
不过多名业内人士表示,“蒸馏”虽然存在一定争议,但其实是大模型训练中一种常用的方法。由于训练复杂模型需要投入大量资源,并雇用专业人员教导模型如何生成符合人类表达方式的回答,耗钱耗时间,而“蒸馏”则可以避免这个问题。因此,无论是在中国还是美国,初创公司和学术机构使用ChatGPT等具有人类反馈优化的商业大语言模型输出数据来训练自己的模型,被视为一种普遍的、“默而不宣”的现象。
由中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中,研究者就提到除了Claude、豆包和Gemini之外,当前知名的开闭源大语言模型均表现出了较高的“蒸馏”水平。研究人员普遍认为,“蒸馏”能够使模型训练的效率更好、成本更低,但会使模型的独特性下降,且过度“蒸馏”也会导致模型性能下降。
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了 收起酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了
- 2025年02月15日
- 11:55
- APP专享
- 扒圈小记
29,865
事闹大了,前国乒教练尹肖驳斥吴敬平:颠倒黑白!
- 2025年02月16日
- 07:07
- APP专享
- 扒圈小记
2,808
重庆燃气道歉:针对燃气收费问题已派驻整改督导专班
- 2025年02月16日
- 09:51
- APP专享
- 北京时间
2,326
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势起航今天 15:45:04
【美官员将前往沙特 就俄罗斯相关问题进行会谈】美国中东问题特使威特科夫表示,他将于今晚与美国总统国家安全事务助理迈克·华尔兹一起前往沙特阿拉伯,就俄罗斯相关问题进行会谈。威特科夫表示,希望此次会谈能在俄乌冲突问题上取得一些真正良好的进展。他还称,美国官员也在与乌克兰官员进行单独交谈。乌克兰第一副总理、经济部长尤利娅·斯维里坚科当天则表示,乌克兰政府代表团已开始在沙特筹备乌克兰总统泽连斯基访问沙特。此前多家媒体15日援引美方官员的消息报道,美国国务卿鲁比奥等高级官员定于未来数天内在沙特阿拉伯与俄方代表就乌克兰问题开始谈判,同时为普京与特朗普会面做准备。 -
趋势起航今天 15:15:02
【以色列内阁投票确认扎米尔为下任以军总参谋长】以色列内阁已正式投票确认埃亚勒·扎米尔为以国防军下任总参谋长。扎米尔将于3月5日就职。根据以色列法律,以军总参谋长人选必须先通过高级任命咨询委员会的审查,然后再由内阁投票确认。即将离任的以军总参谋长哈莱维于今年1月21日发表声明说,在2023年10月7日巴勒斯坦伊斯兰抵抗运动(哈马斯)对以色列的袭击中,以军应对失误,自己对此负有责任,因此申请于3月6日辞职,并已将辞职信递交给以色列国防部长卡茨和总理内塔尼亚胡。 -
趋势起航今天 15:10:48
以色列政府批准任命埃亚勒·扎米尔 (Eyal Zamir)为下一任以色列国防军参谋长。 -
趋势领涨今天 11:48:52
中信建投(sh601066)策略陈果团队发文称,当前内需平稳开局,外需扰动有限,稳增长导向明确、地产逐步走出需求冰点、政策推动增量资金入市等因素支撑下,中期市场仍将维持震荡上行趋势不变。近期科技板块涨幅已较可观,部分主题方向短期交易指标存在过热,但对比23年的基本面逻辑,本轮科技行情演绎预计仍有空间,包括港股科技巨头在内的一批代表性公司的估值中枢与上沿也有理由明显高于过去两年,而具体演绎预计科技主线内部可能存在一定的轮动。 -
趋势领涨今天 11:20:10
【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 09:42:23
【财政部划转中国农业再保险55.9%股份至中央汇金】中国农业再保险股份有限公司2月14日公告,其控股股东财政部将其持有的中国农业再保险的全部股份(占总股本的55.90%),无偿划转给中央汇金投资有限责任公司。划转完成后,财政部将不再持有任何中国农业再保险股权,中央汇金将持有中国农业再保险约55.90%股份,成为公司控股股东。 -
趋势起航今天 09:19:42
【北京发布网络平台交易新规 未经同意不得滥发营销短信】北京市市场监管局近日公布《网络交易平台经营者服务协议与交易规则合规指引》《网络交易平台经营者信息公示与披露合规指引》《网络交易平台经营者禁限售商品管理合规指引》。指引提出,不得编造、修改、删除、屏蔽消费者的评价信息,也不得好评前置、差评后置误导消费者。自动续费前五日应以显著方式提醒,并提供简便的随时取消或变更选项。 -
趋势起航今天 09:03:21
2015年发生股.灾时,中证金融公司和中央汇金作为国家队救市,买了很多股票,后来中证金融公司一部分股票减持,另一部分股票都转给了中央汇金。现在财政部和中证金融公司又将很多股票转移给了中央汇金,中央汇金的大股东是中投公司,中投公司有四张牌照,中央汇金现在又收到了中证金、信达、长城等三张牌照,相当于中央汇金现在手握七张牌照,后期进行证券整合、处理不良资产是手到擒拿,所以,证券整合、资产重组应该要拉开序幕,下周就看市场炒不炒作了!中金公司(sh601995)现在有钱,有股票,基本能够控制整个市场,所以,将他们称之为平准基金,应该不为过!但经过这次整合以后,后期应该不会推出平准基金了,中央汇金大概率就是所谓的平准基金。 -
趋势领涨今天 07:44:23
周末最大的王炸来了,腾讯的微信正式接入DeepSeek。只要成功接入,那全球范围内没有比DS用户更多的大模型!上一个享受这个待遇是华为鸿蒙,而且鸿蒙是搞了很多年才各方支持的!DeepSeek横空出世不到一个月,就得到了所有巨头的支持,这才叫国运级的产品。DeepSeek破圈最大的作用,就是带来全球AI的平权,我们是最大的受益者!有了AI的助力,人工智能、无人驾驶、低空经济、机器人(sz300024)等新兴产业就能全面发力,让我们的经济换道超车,迎来新一轮增长周期!中国资产、中国科技也会迎来全面重估,A股慢牛也有望正式开启。 -
趋势领涨今天 07:14:00
许多外资巨头看到了中国高科(sh600730)技的力量,纷纷改变了对中国高科(sh600730)技的看法,纷纷唱多中国资产,唱多中国股市。A股科技股迎来一波牛市行情。瑞银给出中美上市公司对标的名单:英伟达——寒武纪(sh688256)(估值比英伟达高312%)、海光信息(sh688041)、地平线机器人(sz300024)、黑芝麻(sz000716)智能;特斯拉——小米集团和理想汽车,折价竟然高达80%甚至90%;台积电——对标中芯国际(sh688981)和华虹半导体;思科——对标中兴通讯(sz000063);meta——对标腾讯;亚马逊——对标阿里巴巴;谷歌——对标百度;阿斯麦——对标北方华创(sz002371)。