新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务_新浪财经

　　新浪科技讯 5月13日下午消息，今日在 FORCE LINK AI 创新巡展·上海站，火山引擎官方表示，新发布的豆包1.5·视觉深度思考模型（Doubao-1.5-thinking-vision-pro），激活参数仅20B，但具备强大的多模态理解和推理能力，在60个公开评测基准中，有38个取得 SOTA 表现，在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。目前，该模型已在火山方舟上线。

　　在视频理解方面，支持动态帧率采样，视频时序定位能力显著增强，结合向量搜索，可精准定位视频中与文本描述相对应的片段。

　　同时，新增视频深度思考能力。模型学习了数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。例如，在复杂的图形推理题中，模型提出假设，进行推理检验，当发现和假设不一样时，还能进行不断反思，提出新的猜测，直到得出正确答案。

　　此外，该模型新增GUI Agent能力。基于强大的GUI定位性能，可在PC端、手机端等不同环境中完成复杂交互任务。例如，可对新开发的APP功能进行自动化检测，目前该功能已经应用于字节跳动多款APP产品的开发测试中。（罗宁）