商汤开源多模态自主推理模型 SenseNova-MARS，号称让 AI 真正具备“执行能力”|推理|AI_新浪科技

IT之家 1 月 30 日消息，1 月 29 日，商汤宣布开源多模态自主推理模型 SenseNova-MARS（8B/32B 双版本）。据商汤介绍，该模型是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型。

IT之家附有关地址如下：

模型仓库：

根据介绍，其在多模态搜索与推理的核心基准测试中以 69.74 分超越 Gemini-3-Pro（69.06 分）、GPT-5.2（67.64 分）。

SenseNova-MARS 是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型，能自己规划步骤、调用工具，轻松搞定各种复杂任务，让 AI 真正具备“执行能力”。

在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中，SenseNova-MARS 取得开源模型中的 SOTA 成绩，还超越 Gemini-3.0-Pro、GPT-5.2 等顶级闭源模型。

官方提供了一系列使用案例如下。

面对识别赛车服微小 logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值的复杂任务，SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具，无需人工干预完成闭环解答。

SenseNova-MARS 能从产品和行业峰会的照片中，识别企业的标志，快速搜集产品、企业的信息，以及时间、数量、参数等细节要素，辅助分析行业情况和格局。

SenseNova-MARS 能从赛事照片中识别画面中的 logo、人物等信息，追溯比赛或人员背景信息，帮助快速补充重要细节。

SenseNova-MARS 还能够轻松处理超长步骤的多模态推理和超过三种工具调用，自动裁剪分析细节、搜索相关研究数据，快速验证假设，得出关键判断。

SenseNova-MARS 能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务，帮助实现工作效率提升。

关键词 : 推理 AI

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

商汤开源多模态自主推理模型 SenseNova-MARS，号称让 AI 真正具备“执行能力”