阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源
2026年01月30日 22:14 IT之家

IT之家 1 月 30 日消息,阿里千问今天在公众号平台发文,宣布推出新一代 Agent 基准测试 DeepPlanning。

据介绍,DeepPlanning 与传统的推理任务截然不同,要求 AI 在面对现实世界的复杂规划时通盘考虑不能只专注于局部

例如:多日旅行规划要精确到分钟级排期,同时守住时间、预算的硬上限;复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减,以实现整体价格最优。而且这些“硬要求”不只是让 AI 单纯在哪一步完成就好,必须贯穿整个计划始终。

最终实测结果表明,即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有 100% 自主决策能力的“行动派”还有一定距离。

阿里新一代AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片