阿里通义千问开源视觉推理模型 QVQ-72B-Preview：像物理学家一样思考_新浪科技

IT之家 12 月 25 日消息，阿里通义千问 Qwen 团队今天（12 月 25 日）发布博文，宣布基于 Qwen2-VL-72B 构建，推出 QVQ-72B-Preview 开源视觉推理模型，能够像物理学大师一样，面对复杂的物理问题，沉着冷静地通过逻辑推理找到解决方案。

阿里通义千问团队在 4 个数据集上评估 QVQ-72B-Preview，IT之家附上相关介绍如下：

MMMU：一个大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力。
MathVista：一个数学相关的视觉推理测试集，评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
MathVision：一个高质量多模态数学推理测试集，来自于真实的数学竞赛，相比于 MathVista 具有更多的问题多样性和学科广度。
OlympiadBench：一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的 8,476 个问题，包括中国高考。每个问题都附有专家级别的注释，详细说明了逐步推理的过程。

测试结果显示，QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三个专注于数学和科学问题的基准测试中，该模型表现出色，有效缩小了与领先的最先进的 o1 模型之间的差距。

阿里通义千问 Qwen 团队也表示 QVQ-72B-Preview 是实验性研究模型，专注于增强视觉推理能力。尽管它的表现超出了预期，但仍有几个限制需要注意：

语言混合与切换：模型可能会意外地混合语言或在语言之间切换，从而影响响应的清晰度。
递归推理：模型可能会陷入循环逻辑模式，产生冗长的响应而无法得出结论。
安全和伦理考虑：模型需要增强安全措施，以确保可靠和安全的性能，用户在部署时应保持谨慎。
性能和基准限制：尽管模型在视觉推理方面有所改善，但它无法完全替代 Qwen2-VL-72B 的能力。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致幻觉。

参考