news 2026/6/24 2:15:25

“Natural-Language Agent Harnesses“ 论文笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
“Natural-Language Agent Harnesses“ 论文笔记

Agent 系统的性能越来越依赖 Harness,但这些逻辑通常藏在代码里、框架默认设置里,或者特定运行时的各种约定里。结果就是很难把一个 Harness 移植到另一个系统、拿来比较,或者系统性地研究改进

作者提出把 Harness 的高层控制逻辑从代码中抽出来,用自然语言写成一个可编辑、可移植的文档,叫Natural-Language Agent Harnesses (NLAH)。然后设计一个共享的运行时Intelligent Harness Runtime (IHR),让 LLM 直接读懂这个自然语言描述,并按照里面的规则去执行任务

方法

本文认为 Harness 是管理任务族的多个模型或智能体的一个模式层,其指定:控制(如何分解和安排工作);契约(必须生产哪些工件、满足哪些条件、何时停止运行);说明(每个步骤和分支坚持的内容)

(1) NLAH

与 OpenAI 的报告一样,NLAH 是有明确结构的自然语言文档,通常放在类似 harness-skill/SKILL.md 的文件里。具体而言,其包含以下部分:

  • Contracts:定义输入输出格式、验证规则、停止条件、重试次数。比如 "必须输出有效的 Python 代码文件 solution.py,否则重新生成"

  • Roles:给不同子代理分配职责和 prompt,比如 Planner 负责出计划,Solver 负责写代码,Verifier 负责跑测试,Debugger 负责修复

  • Stage Structure:描述工作流拓扑,比如 "先 PLAN → 再 EXECUTE → 然后 VERIFY → 失败就进入 REPAIR,最多重试 3 次"

  • Adapters/Scripts:命名一些确定性的钩子,比如跑测试的脚本、解析输出的工具

  • State Semantics:说明状态怎么持久化(推荐用文件),比如通过路径重新打开 artifact

  • Failure Taxonomy:给常见失败起名字并定义处理方式,比如 "test_failure" 就跳到 REPAIR 阶段,"tool_error" 就重试一次

(2) IHR

具体而言,IHR是个共享运行时,里面有个 "in-loop LLM" 负责不停解读 NLAH、当前状态和一个叫Runtime Charter(运行时宪章)的共享规则

  • 它把任务拆成父子代理:父代理轻量级,只管调度;子代理干实际活

  • 状态用文件持久化,放在固定路径下,便于重启和审计

  • 每次行动前都会检查 contracts,失败就按 taxonomy 处理

  • 关键是把运行时通用规则 和 具体任务 harness分开,避免污染

实验

可以看到 Harness 显著改变了行为(工具调用、LLM 调用、运行时间),但 Performance 变化不大;此外,不是所有模块都有用,有些模块(如 verifier)因为 overhead,在小样本上反而没明显提升甚至略降

总结

这篇工作更像是一次显式化 Harness 的初步探索,利用自然语言形态的 Harness 可以增加可解释性和可迁移能力,让 Harness 成功抽象出来。但在小样本实验下,NLAH 虽然显著影响了智能体的运行逻辑,成功率并无显著提升。由于预算有限,作者说后续会在大规模实验来继续探究

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 2:10:30

ima期末复习

这几天一直在为我的数据结构考试发愁,不知道怎么复习,于是....我发现了腾讯的IMA知识库。ima就是一个个人专属知识库,可以把自己的任何资料打包上传,IMA就会基于你的知识库和大模型来回答你关于知识库的内容。就像这样。还可以生成…

作者头像 李华
网站建设 2026/6/24 2:10:10

跨端迁移:实现应用状态在手机与平板间无缝流转(63)

在鸿蒙(HarmonyOS)生态中,跨端迁移(应用接续)是实现“人随场景走、服务随人走”的核心能力。它允许用户在手机上进行的操作(如编辑文档、观看视频、浏览网页),无缝流转至平板或智慧屏…

作者头像 李华
网站建设 2026/6/24 2:06:57

windows经典漏洞之永恒之蓝

一、漏洞背景 爆发时间:2017年4⽉披露,2017年5⽉衍⽣出 Wannacry 勒索病毒全球爆发。 影响范围:波及全球学校、企业、政府机构,病毒加密⽤户⽂件后要求⽀付⽐特币赎⾦才能恢复。 漏洞原理:利⽤ Windows SMB v1 协议的漏…

作者头像 李华
网站建设 2026/6/24 2:04:02

挖掘 Github 宝藏,盘点那些好用的 ROCm 开源项目

告别编译地狱:自动化部署脚本的实战价值 提到在 AMD GPU 上跑大模型,很多人的第一反应就是“环境配置太劝退”。确实,从源码编译 PyTorch 和 vLLM 的过程,常常因为架构参数设错、HIP 编译器路径缺失或者依赖库版本冲突而半途夭废。…

作者头像 李华