新增GUI Agent能力!豆包1.5·视觉深度思考模型可完成多端复杂任务

新增GUI Agent能力!豆包1.5·视觉深度思考模型可完成多端复杂任务
2025年05月13日 15:18 新浪科技

  新浪科技讯 5月13日下午消息,今日在 FORCE LINK AI 创新巡展·上海站,火山引擎官方表示,新发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得 SOTA 表现,在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。目前,该模型已在火山方舟上线。

  在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。

  同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。

  此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。(罗宁)

海量资讯、精准解读,尽在新浪财经APP

责任编辑:刘万里 SF014

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 05-19 古麒绒材 001390 --
  • 05-08 威高血净 603014 26.5
  • 05-08 太力科技 301595 17.05
  • 05-07 汉邦科技 688755 22.77
  • 04-28 天工股份 920068 3.94
  • 新浪首页 语音播报 相关新闻 返回顶部