news 2026/4/27 18:09:28

Agent Harness 如何让 LLM 从玩具变神器!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent Harness 如何让 LLM 从玩具变神器!

文章深入探讨了智能体(Agent)背后的关键基础设施——Agent Harness。它指出,尽管 LLM 本身强大,但在生产环境中常因模型周围的基础设施问题而失效。Agent Harness 作为包裹 LLM 的完整软件基础设施,包括编排循环、工具、记忆、上下文管理、状态持久化、错误处理、安全等,是让 LLM 从玩具变神器的关键。文章详细解析了 Harness 的概念、组件及其重要性,并提出了未来检验 Harness 的标准,强调改 Harness 比改模型更有效。


一、智能体究竟在构建什么?

你做过聊天机器人吧?

简单搭一个 ReAct 循环,加几个工具,Demo 跑得飞起。

可一到生产环境,轮子就全掉了:模型忘掉三步前的操作、工具调用失败、上下文窗口塞满垃圾等等问题,从来不在模型本身,而在模型周围的那一层基础设施。

LangChain 就是最好的证明:他们只改了包裹 LLM 的基础设施(模型和权重完全没动),就在 TerminalBench 榜单上从榜外直接冲到第 5 名。

还有一个独立研究项目让 LLM 自己优化基础设施,最终达到 76.4% 的通过率,超过了手写系统。

现在这个基础设施,现在有了一个正式的名字—Agent Harness

二、什么是 Agent Harness?

这个词在 2026 年初被正式确立,但概念早就存在。

Harness 就是把原始 LLM 包装成真正可用 Agent 的完整软件基础设施:编排循环、工具、记忆、上下文管理、状态持久化、错误处理、安全等等,全部算在内。

Claude Code 文档里很直白的写着:“我们的 SDK 就是驱动 Claude Code 的 Agent Harness。”

OpenAI Codex 团队也用同样的话术,把“Agent”和“Harness”划等号,指的都是模型之外的那层非模型基础设施。

有一句金句我特别喜欢:

“如果你不是模型,那你就是 Harness。”很多人搞混的点在这里: Agent 是用户看到的那种“有目标、会用工具、能自我纠错”的智能体行为; Harness 才是真正产生这种行为的机器。

你说“我做了一个 Agent”,其实就是“我搭了一个 Harness,然后指向了一个模型”。

Beren Millidge 在 2023 年的文章里把这个比喻讲得极精准:

  • 裸 LLM 就像一颗没有 RAM、没有硬盘、没有 I/O 的 CPU。
  • 上下文窗口 = 高速但容量小的 RAM;
  • 外部数据库 = 大容量但慢的硬盘;
  • 工具集成 = 设备驱动;
  • 而 Harness 就是操作系统。
  • 我们其实重新发明了冯·诺依曼架构。

三、从提示工程到 Harness围绕模型有三层核心工程:

  • Prompt Engineering:写给模型看的指令
  • Context Engineering:决定模型在什么时候看到什么内容
  • Harness Engineering:包含前两层 + 完整的应用基础设施(工具编排、状态持久、错误恢复、验证循环、安全、生命周期管理)

Harness 绝不是“提示的包装器”,它是让自主 Agent 行为成为可能的完整系统。

四、生产级 Agent Harness 的 12 大组件综合 Anthropic、OpenAI、LangChain 以及业界最佳实践,一个成熟的 Agent Harness 包含以下 12 个核心组件:

  1. 编排循环(Orchestration Loop)
    这是整个系统的“心跳”。实现 Thought-Action-Observation(ReAct)循环:组装 Prompt → 调用 LLM → 解析输出 → 执行工具 → 结果回填 → 循环。

  2. 工具(Tools)Agent 的“手”

工具以 schema(名称、描述、参数类型)的形式注入上下文。

  1. 记忆(Memory)分多个时间尺度:
  • 短期记忆 = 单次会话历史
  • 长期记忆 = 跨会话持久化
    Claude Code 用三层记忆体系:轻量索引(始终加载)、按需拉取的主题文件、仅搜索的原始记录。
  • 核心原则:把自己的记忆当成“提示”,行动前必须验证真实状态。
  1. 上下文管理(Context Management)
    这是多数 Agent 崩盘的根源。
    斯坦福研究证明,即使百万 token 窗口,关键信息放在中间位置时性能也会下降 30%+。

生产级策略包括:

  • 压缩(Compaction):Claude Code 会保留架构决策和未解决 bug,丢弃冗余工具输出
  • 隐藏输出:隐藏旧工具输出但保留工具调用
  • 即时检索:Claude Code 用 grep/glob/head/tail 而不是全量加载文件
  • Sub Agent 委托:每个子 Agent 深入探索后只返回 1000-2000 token 的摘要信息
  1. Prompt 构造
    分层组装:系统 Prompt + 工具定义 + 记忆文件 + 会话历史 + 当前用户消息。

  2. 输出解析
    现代 Harness 依赖原生 tool calling(返回结构化的 tool_calls 对象)。

  3. 状态管理
    Claude Code 用 git commit + progress 文件做 checkpoint。

  4. 错误处理
    假如有一个任务需要10个步骤,10个步骤中就算每步 99% 成功,最终成功率也只有 ~90.4%。

  5. 安全
    把权限和模型推理彻底分离—模型决定“想做什么”,工具系统决定“能不能做”。

  6. 验证循环(Verification Loops)
    Claude Code 创始人说:给模型验证自己工作的能力,能把质量提升 2-3 倍。
    三种验证方式:规则验证、视觉反馈(Playwright 截图)、LLM-as-Judge。

  7. Sub Agent 编排
    Claude Code 支持 Fork / Teammate / Worktree 三种模式。

五、一个循环的完整运行过程

  1. Prompt 组装(重要内容放头尾)
  2. LLM 推理
  3. 输出分类(有 tool call 就执行,无则结束)
  4. 工具执行(只读并发,写操作串行)
  5. 结果包装(错误也返回给模型)
  6. 上下文更新(超限则压缩)
  7. 循环 对于跨多个上下文窗口的长任务,初始化 Agent 打底,后面每轮 Coding Agent 读 git log + progress 文件继续。

六、脚手架隐喻:最终会拆掉脚手架不是装饰,而是临时基础设施。

模型越强,Harness 就该越薄。

Manus 半年内重写了五次,每次都在删复杂度—复杂工具定义变成通用 Shell 执行,管理 Agent 变成简单结构化交接。这就是协同进化:模型现在是带着特定 Harness 做后训练的。换工具实现,性能反而可能下降。

未来检验 Harness 的标准:更强的模型上来,Harness 不需要加复杂度,就说明设计对了。

六、每个 Harness 架构师都要做的 7 个关键决策

  • 单 Agent 还是多 Agent(建议先把单个 Agent 做到极致)
  • ReAct 还是 Plan-and-Execute(后者可提速 3.6 倍)
  • 上下文窗口管理策略(5 种生产方案)
  • 验证循环设计(前馈 vs 反馈)
  • 权限与安全架构(宽松 vs 严格)
  • 工具范围策略(工具越多性能越差,Vercel 砍掉 80% 工具后反而更好)
  • Harness 厚度(Anthropic 押注薄 Harness + 模型进步)

七、结论:Harness 才是真正的产品用同样模型,Harness 不同,性能能差 20 个倍。
TerminalBench 的数据已经证明:改 Harness,比改模型更有效。

把上下文当成稀缺资源、设计能提前捕捉失败的验证循环、构建不产生幻觉的记忆系统、在“给模型多少脚手架”和“让模型自己来”之间做架构赌注。未来 Harness 会越来越薄,但永远不会消失。
再强大的模型,也需要有人管它的上下文窗口、执行它的工具调用、持久化它的状态、验证它的工作。

说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程
  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)
  • ✅大模型书籍与技术文档PDF
  • ✅各大厂大模型面试题目详解
  • ✅640套AI大模型报告合集
  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 18:09:24

ROS Bag文件解析避坑指南:从rosbag::View到Python read_messages的常见错误

ROS Bag文件解析实战避坑指南:从C迭代器陷阱到Python内存管理 如果你曾经在解析ROS Bag文件时遇到过消息实例化失败、时间戳错乱或者内存泄漏等问题,那么这篇文章就是为你准备的。作为ROS开发者,我们经常需要处理Bag文件,但官方文…

作者头像 李华
网站建设 2026/4/27 18:08:26

M2CL模型如何实现多LLM协作的性能突破

1. M2CL模型在多LLM协作中的性能突破最近在ICLR 2026会议上提交的一项研究展示了M2CL模型在多LLM协作中的显著性能提升。作为一名长期从事AI系统研发的工程师,我深入研究了这项工作的技术细节和实际意义,下面将分享我的专业解读和实践经验。多LLM协作系统…

作者头像 李华
网站建设 2026/4/27 18:06:30

3分钟快速上手G-Helper:华硕笔记本终极轻量化控制方案

3分钟快速上手G-Helper:华硕笔记本终极轻量化控制方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Sc…

作者头像 李华
网站建设 2026/4/27 18:05:40

LyricsX完全指南:如何在Mac上实现完美的桌面歌词显示体验

LyricsX完全指南:如何在Mac上实现完美的桌面歌词显示体验 【免费下载链接】Lyrics Swift-based iTunes plug-in to display lyrics on the desktop. 项目地址: https://gitcode.com/gh_mirrors/lyr/Lyrics LyricsX是一款专为Mac用户设计的免费开源iTunes歌词…

作者头像 李华