眼看着半只脚都跨进蛇年了,杭州城还是一如既往真卷啊!
今天凌晨4点,阿里通义Qwen发布新春节礼第二弹:推出视觉理解模型Qwen2.5-VL,开源的
可以支持视觉理解事物、Agent、理解长视频并且捕捉事件、视觉定位和结构化输出等等。
Qwen2.5-VL是Qwen系列旗下全新的视觉理解模型,也被官方称为“旗舰视觉语言模型”,推出了3B、7B和72B三个版本
官方放出的测试结果,Qwen系列视觉旗舰中的旗舰——Qwen2.5-VL-72B-Instruct,在一系列涵盖多个领域和任务的基准测试中表现如下。
包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉Agent:

而此系列中的7B模型,Qwen2.5-VL-7B-Instruct,在多个任务中超越了GPT-4o-mini

此外,通义Qwen团队还将Qwen2.5-VL-3B称为“端侧AI的潜力股”,它以3B之身,超越了此前的Qwen2-VL-7B。

可以观察到的一点是,Qwen2.5-VL在理解文档和图表方面表现突出
此外,当作为视觉Agent操作时,Qwen2.5-VL无需进行特定任务的微调
官方宣布,Qwen2.5-VL的Base和Instruct模型,全系列3B、7B、72B仨尺寸的模型,已经统统开源
(按惯例,文末有之指路直通车)
下面展示对Qwen2.5-VL在6个方面的能力:
据官方信息,Qwen2.5-VL可以采用矩形框和点的多样化方式,对通用物体定位,并实现层级化定位和规范的 JSON格式输出。
譬如,喂给它一张街头实拍图,并输入Prompt:
然后你将得到一个用不同颜色方框,框选中图中载人摩托车的返回结果:

坐标返回也没落下,按要求返回:

Qwen团队表示,Qwen2.5-VL增强的定位能力,提供了在复杂场景中,视觉Agent进行理解和推理任务的基础。
此外,相较于视觉模型系列前作Qwen2-VL,Qwen2.5-VL主要提升了其通用图像识别能力
同时扩大了模型可识别的图像类别量级,包括动植物、著名山川河流等地标,还包括各种影视IP,以及各类商品。

量子位亲测,Qwen2.5-VL-72B-Instruct给出的答案如下:

在Qwen2.5-VL中,研发团队设计了一种“更全面的文档解析格式”,称为QwenVL HTML格式
简单来说,该模式下的Qwen2.5-VL,既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。
以下为Qwen团队的官方测试demo。
同时喂给下面这张图片:

Qwen2.5-VL吐回的结果是酱婶儿的:

研发人员还表示,基于精心构建的海量数据(16.520, -0.36, -2.13%),QwenVL HTML可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页等。
甚至包含手机截屏~
通过利用内在的感知、解析和推理能力,Qwen2.5-VL展现出了不错的设备操作能力。
包括在手机、网络平台和电脑上执行任务
譬如,让它帮忙订一张今天从重庆飞北京的机票:
请欣赏它的执行过程和背后代码(虽然执行过程的动作速度还比较缓慢):
视频里能力方面,在时间处理上,Qwen2.5-VL引入了动态帧率(FPS)训练和绝对时间编码技术。
如此一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力
它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。
譬如,让它观看以下视频,并列出视频中出现的paper名字
它吐出来的结果如下:

最后,Qwen2.5-VL提升了OCR识别能力
增强了多场景、多语言和多方向的文本识别和文本定位能力。
同时,该系列模型又着重增强了信息抽取能力,以满足日益增长的资质审核、金融商务等数字化、智能化需求。
去年9月2日,阿里通义团队开源了上一代(也是第二代)视觉语言模型 Qwen2-VL,当时推出的是2B、7B两个参数版本,及其及其量化版本。
当时的Qwen2-VL可以理解20分钟以上长视频,以及可集成后自主操作手机和机器人(20.920, -0.83, -3.82%)。
与Qwen2-VL相比,Qwen2.5-VL增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。
具体可分为两个方面。
其一是时间和图像尺寸的感知
在空间维度上,Qwen2.5-VL不仅能够动态地将不同尺寸的图像转换为不同长度的token,还直接使用图像的实际尺寸来表示检测框和点等坐标,而不进行传统的坐标归一化。
这使得模型能够直接学习图像的尺度。
在时间维度上,引入了动态FPS(每秒帧数)训练和绝对时间编码,将mRoPE id直接与时间流速对齐。
这使得模型能够通过时间维度id的间隔来学习时间的节奏。

其二是更简洁高效的视觉编码器
视觉编码器在多模态大模型中扮演着至关重要的角色。
Qwen2.5-VL团队从头开始训练了一个原生动态分辨率的ViT,包括CLIP、视觉-语言模型对齐和端到端训练等阶段。
为了解决多模态大模型在训练和测试阶段ViT负载不均衡的问题,研究人员又引入了窗口注意力机制,有效减少了ViT端的计算负担。
在Qwen2.5-VL的ViT设置中,只有四层是全注意力层,其余层使用窗口注意力
最大窗口大小为8x8,小于8x8的区域不需要填充,而是保持原始尺度,确保模型保持原生分辨率。
此外,为了简化整体网络结构,团队使ViT架构与LLMs更加一致,采用了RMSNorm和SwiGLU结构
在此基础上,Qwen2.5-VL呈现出如下主要特点:
第一,视觉理解
Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。
第二,Agent
Qwen2.5-VL直接作为一个视觉Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
第三,理解长视频和捕捉事件
Qwen2.5-VL能够理解超过1小时(进步了40分钟)的视频,并且它具备了通过精准定位相关视频片段来捕捉事件的新能力。
第四,视觉定位
Qwen2.5-VL可以通过生成bounding boxes或者points来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。
第五,结构化输出
对于发票、表单、表格等数据,Qwen2.5-VL支持其内容的结构化输出,有助于在金融、商业等领域的应用。
目前,Qwen2.5-VL全系列已经开源在抱抱脸、魔搭社区。
而Qwen Chat官网可直接体验Qwen2.5-VL-72B-Instruct。

Qwen团队还表示:
看来,推理、多模态是Qwen团队的下一步重点,最终星辰大海是综合全能模型。
Qwen Chat:
https://chat.qwenlm.ai
抱抱脸:
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
魔搭:
https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
https://mp.weixin.qq.com/s/RhRcULJrEGwasMLoNYXPOw
— 完 —
量子位 QbitAI · 头条号
关注我们,第一时间获知前沿科技动态


APP专享直播
热门推荐
特朗普:移民金卡会卖疯的,要有1000万人买,就能赚50万亿还清美国债务 收起特朗普:移民金卡会卖疯的,要有1000万人买,就能赚50万亿还清美国债务
- 2025年02月27日
- 03:52
- APP专享
- 扒圈小记
3,043
美媒:特朗普称,他有可能无法促成俄乌和平
- 2025年02月27日
- 01:03
- APP专享
- 扒圈小记
2,272
特朗普:不再向乌方提供新军援,普京必须在谈判中让步!他还称将给欧盟加25%关税,由欧洲保障乌克兰安全!
- 2025年02月27日
- 01:11
- APP专享
- 北京时间
2,065

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:26:48
今天最大的新闻,雷军盘中成为中国新首富。但收盘小米集团大跌,又把首富拱手让给卖水的钟睒睒了!从2022年至今,小米港股累计涨幅已经超过570%。小米股票在今天又再次创下了历史新高。而雷军持有小米集团约24.2%的股份,对应市值约3412亿元人民币。 -
趋势领涨今天 11:03:55
【九号公司(sh689009):2024年净利润10.88亿元 同比增长81.9%】九号公司(sh689009)(***)公告称,2024年营业总收入为141.71亿元,同比增长38.63%;归属于母公司所有者的净利润为10.88亿元,同比增长81.90%。主要原因是公司通过优化经营策略,开拓市场,使得电动两轮车、电动滑板车、全地形车和服务机器人(sz300024)等业务条线的产品销量持续增长。 -
趋势领涨今天 10:03:13
【九号公司(sh689009):2024年净利润10.88亿元 同比增长81.9%】九号公司(sh689009)(689009.SH)公告称,2024年营业总收入为141.71亿元,同比增长38.63%;归属于母公司所有者的净利润为10.88亿元,同比增长81.90%。主要原因是公司通过优化经营策略,开拓市场,使得电动两轮车、电动滑板车、全地形车和服务机器人(sz300024)等业务条线的产品销量持续增长。 -
趋势领涨今天 09:43:09
国家能源局:光伏内卷式竞争仍未根本解决 正在配合有关部门研究完善政策措施;支持能源体系低碳转型 加大对充电基础设施领域的金融支持。银行保险机构要围绕太阳能(sz000591)光伏、风电、水电、抽水蓄能、特高压、核能、储能、智能电网、微电网等新能源产业生产、建设和运营以及更新、升级和改造。 -
数字江恩今天 09:34:48
直接看近期的5分钟图。今天的回踩是非常技术性的,3356区间反复磨蹭之后,最低点3353就快速拉起,和本人昨日给的3350支撑非常吻合。大盘走出这个的形态,应该说3384之后的宽幅震荡,有了明显的之字形特征,低点3337看为支撑。而在未来两个交易日之内,看图上的红色轮谷线,这条轮谷线只要不跌破,那么大盘首先要攻打3400以上的空间。毕竟恒生早就突破了3674对应位置,A股一直在3400之下也是不恰当的。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:34:23
板块来说,今天变化非常明显,之前炙手可热的云概念和机器人(sz300024)今日回踩幅度较大。而大消费类、新能源类,今天则表现不错。权重方向,金融石油酿酒地产建筑都有表现。 -
数字江恩今天 09:34:15
A股两市今日成交7741 + 12305 = 20046 亿人民币,再次超过2万亿的成交金额显示出了市场的热情。大盘今日先回踩下试了3356区间的支撑,然后强力反弹,收涨8个点。个股方面,涨跌比约为4:6。 -
数字江恩今天 09:34:10
看轮谷线支撑 -
趋势领涨今天 07:59:34
【今日投资舆情热点】1)算力相关:DeepSeek作为开源AI大模型,各大厂商纷纷宣布接入,将直接拉动对于算力及云服务的需求。2)食品消费:五部门印发《优化消费环境三年行动方案(2025-2027年)》,到2027年,消费供给提质、消费秩序优化、消费维权提效、消费环境共治、消费环境引领等五大行动深入开展。3)机器人(sz300024):机构称,大模型快速迭代,推动具身智能大发展,特斯拉不再是产业链唯一风向标,将会涌现出来更多参与者。4)固态电池:中国电动汽车百人会表示,在新能源汽车领域,预计到2027年全固态电池开始装车,预计到2030年可以实现量产化应用。 -
趋势领涨今天 07:58:31
【今日投资舆情热点】1)算力相关:DeepSeek作为开源AI大模型,各大厂商纷纷宣布接入,将直接拉动对于算力及云服务的需求。2)食品消费:五部门印发《优化消费环境三年行动方案(2025-2027年)》,到2027年,消费供给提质、消费秩序优化、消费维权提效、消费环境共治、消费环境引领等五大行动深入开展。3)机器人(sz300024):机构称,大模型快速迭代,推动具身智能大发展,特斯拉不再是产业链唯一风向标,将会涌现出来更多参与者。4)固态电池:中国电动汽车百人会表示,在新能源汽车领域,预计到2027年全固态电池开始装车,预计到2030年可以实现量产化应用。