Context 还不够，Harness 才是 Agent 工程优化的正解？|AI_新浪科技

AI Agent 进入生产环境后，业界关注的重点正从生成转向执行。随着长程任务中的上下文挤压、工具开销和业务语境缺口持续暴露，单一的 Context Engineering 已难以支撑 Agent 的稳定运行，围绕执行环境、约束机制和反馈回路展开设计的 Harness Engineering 因而受到更多关注。

01. Agent 的稳定性问题还是得靠 Harness 来补？

Harness Engineering 将是 Context Engineering 之后的新范式？...

02.为什么 Context Engineering 还远远不够？

Andrej Karpathy 力挺的 Context Engineering 现在也不够用了？LLM 性能提升的关键不在于输入更多的 token？...

03.Harness Engineering 如何让 Agent 更稳定？

不同厂商正在给 Agent 加上哪些新的约束和回路？...

Agent 的稳定性问题还是得靠 Harness 来补？

1、为了让智能体在真实任务中更可用、更稳定，业内始终在持续推进相关的工程优化工作。随着 AI 应用从单轮生成走向多步执行，Context Engineering 受到了更多关注，主要解决模型在推理过程中「应当看到什么」的问题。

2、而随着真实任务复杂度的上升，近期有思潮认为，要进一步提升 Agent 的稳定性，工程优化的重点不能仅停留在上下文管理中，而需进一步拓展为执行过程本身的设计，因此更关注 Agent 「应当如何运行」的 Harness Engineering 进入研究视野。

① 今年 2 月，云基础 infra 公司 HashiCorp 联创 Mitchell Hashimoto 强调当 Agent 反复犯同类错误时，关键点在于让系统更快暴露错误、定位错误并推动修正，他将这类实践概括为「harness engineering」。[1-1]

3、自 2025 年 12 月开始，AI 社区的 Harness Engineering 的讨论开始逐步升温，并将其视为 Prompt Engineering、Context Engineering 之后，Agent 工程进一步走向执行框架设计的一种信号。[1-2][1-3]

① 相关讨论的核心判断是，决定 Agent 落地效果的关键，已不只是模型能力本身，而在于系统能否提供清晰边界、自动校验和可复用的纠错流程。

② 也有观点认为，这意味着新的工程分工正在形成，即模型负责生成与执行，人类则更多负责设定约束、补充反馈并持续优化运行框架。

4、目前业内有观点认为，Harness Engineering 的价值并不依赖于更换底层模型，而可以直接体现在系统层优化上，例如 LangChain 团队就在固定模型不变的前提下实现了 Agent 表现的明显提升。[1-4]

① 在今年 2 月，其 Deep Agents 团队在保持模型固定为 GPT-5.2-Codex 的前提下，仅通过调整 harness，就将 coding agent 在 Terminal Bench 2.0 上的得分从 52.8% 提升至 66.5%，排名从 Top 30 附近跃升至 Top 5。

② 其改进方法则是借助 trace 在大规模运行中识别失败模式，再针对性回写到 harness 中。这意味着 Harness Engineering 将「调试模型」转化为了「调整系统」，并通过可观测性与闭环迭代持续放大了模型已有的能力。

③ 而近期 OpenAI 的内部实验则说明，Harness Engineering 的作用并不止于在固定模型下提升 Agent 表现，更在于通过重构环境、上下文组织和反馈机制，使 Agent 得以进入真实的软件交付、部署、修复和迭代流程。[1-5]

为什么 Context Engineering 还远远不够？

1、在围绕 Agent 可用性展开的工程优化中，业内一直在探索更好的解决方案。在较早阶段，业界一度将优化重心放在 Prompt Engineering 上，但随着 AI 应用从单轮问答走向多步执行与长链路任务，单靠提示词已越来越难覆盖真实任务中的上下文缺失、信息噪声与工具协同问题。[1-6]

2、在这一背景下，Context Engineering 逐步受到更多关注，其核心是围绕模型推理所需的信息供给，对检索、记忆、工具反馈与上下文组织方式进行系统化设计，以减少执行偏移、结果失真和后续返工。

① 在 2025 年中，Andrej Karpathy 也表示，相比 prompt engineering，他更认同 context engineering，因为在工业级 LLM 应用中，真正关键的并不是润色单条提示词，而是为模型下一步推理提供恰当的上下文。[1-7]

3、但随着 Agent 进入更长链路、更高复杂度的真实任务，Context Engineering 的局限性也开始集中暴露，它既受到上下文注意力预算的约束，也会因为工具接入和协议开销持续挤压有效认知空间，同时还难以自动补齐企业场景中真正关键的业务定义、数据口径和组织隐性知识...

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读