news 2026/5/13 0:09:21

字节/Meta/OpenAI都在组建的Harness工程,比Scaling Laws更重要的,是Harness Engineering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
字节/Meta/OpenAI都在组建的Harness工程,比Scaling Laws更重要的,是Harness Engineering

🔥个人主页:北极的代码(欢迎来访)
🎬作者简介:java后端学习者
❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb
命运的结局尽可永在,不屈的挑战却不可须臾或缺!

前言:

当我们沉浸在AI把我们从屎山代码中解救出来的喜悦时,未知的危机正在吞噬我们。

现在的AI大模型,就像一匹刚被人领养的野马——血统纯正(参数千亿)、体能爆表(算力惊人)。满心欢喜想让它重构一下代码库,结果呢,它兴奋地冲出去,要么前三步就迷了路,要么在成功前最后一秒踢翻了垃圾桶(幻觉),更气人的是,它经常在完成度30%的时候自信地告诉你完成了,结果却是令人失望,更加的耗费脑力。

因此,在2026年,大厂的AI负责人不再焦虑下一代的模型什么时候出。

他们真正失眠的问题是:我知道GPT-5.5很强,Gemini Ultra 3.0也很强,但为什么一放到我的业务场景里,它就变成了一个不听使唤的猴子

答案,就在过去18个月里,字节Seed团队、Meta GenAI、OpenAI Solutions都在默默扩张的一个新岗位名称上——

Harness Engineer(驾驭工程师)


01. 大厂抢的不是人,是一套约束系统

先别急着搜。如果你现在去百度或Google找Harness Engineering,大概率跳出来的还是汽车线束——电线、端子、胶带,那是物理世界的。

AI世界的Harness Engineering,是神经网络的约束系统

它的定义并不复杂,但极其刁钻:

在不重新训练模型的前提下,通过一套可插拔的约束架构让任意大模型在特定任务上稳定输出、不迷路、不伪造、不偷懒。

翻译成人话:模型是发动机,Harness是变速箱+刹车+方向盘。

今年Q1,LangChain内部做过一个让开源社区倒吸凉气的实验:同一个模型(Claude 3.7 Sonnet),只换了一套更精巧的Harness结构,在SWE-bench全量榜单上的通过率从52.8%直接飙到了66.5%。

13.7个百分点的提升,没有动一行模型参数。

这就是为什么大厂在抢人。因为如果你还停留在“换个更强的模型”来解决业务问题,你的成本可能是隔壁用Harness团队的5倍


02. 拿字节的豆包类产品线举个例子

Harness Engineering到底在架构上做了什么

传统RAG(检索增强生成)本质上是一个金鱼备忘录——AI记不住,就给它贴一张纸条。但Anthropic在构建Claude Code内部工具时,碰了壁。他们发现,即使给了AI“结构化面板”和“进度文件”,模型依然会干出四类反直觉的蠢事:

  1. 提前交卷:做了30%的工作,看了一眼进度条,觉得自己满了。

  2. 循环自嗨:在两个可能的方案之间反复横跳,消耗掉所有token预算。

  3. 假装读过:从“记忆”里编造一段不存在的API文档。

  4. 责任漂移:把失败归咎于“用户给的提示不够清楚”。

Harness Engineering的第一条铁律:不要假设模型有自知之明。

基于这条铁律,Meta的Harness团队(隶属于FAIR的Agent小组)提出过一个如今被广泛引用的三层约束模型:

第一层:流程约束(Process Harness)

不给AI自由意志,而是把它变成一个状态机

  • 业界做法:用LangGraph或DSPy定义确定性转移。比如:Plan → Retrieve → Score → Generate → Validate。任何一步的token probability不达标,直接回退,不走“试试看”。

  • 大厂差异点:字节内部工具链里,这一步不是写Python逻辑,而是用类Prolog的声明式规则。你告诉AI“不允许跨章节引用未出现的段落编号”,而不是告诉它“你要小心”。本质区别。

第二层:边界约束(Boundary Harness)

这是最被低估的一层。大模型天然有overconfidenceunderconfidence同时存在的精分状态。

  • 典型场景:AI对一个从未见过的库函数,依然能给出详细用法。

  • Harness方案:在生成前插入一个轻量级分类器(50KB的on-device模型),判断“当前query是否在可信知识域内”。如果不在,强制输出一个模板:“我不确定,以下是官方文档链接。”

  • 为什么大厂自己做:OpenAI的Moderation API在复杂幻觉场景下滤不干净,必须自训一个域边界模型

第三层:量价约束(Budget Harness)

这是工程财务层面最狠的一刀。LLM推理不是免费的,而且成本方差极大。

  • 真实惨案:某大厂内部Agent跑一个任务,因为陷入循环,一次调用花了47美元

  • Harness解法:在每个Agent节点上挂一个token看门狗,一提到这个我就想到在Redis中学的看门狗了,hh。一旦单条轨迹超过预设阈值(比如工单场景2000 token),强制中断并触发“降级回复”——由一个小模型直接返回“问题太复杂,转人工”。

  • 关键洞察:Harness Engineer有一半的精力不是在写提示词,而是在设计降级策略


03. 能复用的Harness模板

如果你现在是一个AI应用开发者,没有字节或Meta的规模,还能玩Harness吗,当然

这是网上一个被验证过的轻量级Harness结构:

python # 伪代码,但逻辑可落地 class LightweightHarness: def __init__(self, llm, budget_tokens=3000): self.llm = llm self.budget = budget_tokens self.history = [] def run(self, task): # 1. 意图拆分(非LLM,用规则) subtasks = self.decompose(task) # 确定性拆分 for sub in subtasks: # 2. 域边界检查 if not self.in_domain(sub): return "不在我的处理范围内,请提供更具体的信息" # 3. 带预算的生成 response = self.llm.generate( sub, max_tokens=self.budget // len(subtasks) ) # 4. 自洽性校验 if not self.self_consistent(response, sub): # 触发二次生成或降级 response = self.fallback(sub) self.history.append(response) return self.history

核心不是代码,是思维:永远不要让LLM决定“下一步做什么”。画好轨道,让LLM在轨道上跑得快、跑得漂亮,但绝不交出方向盘


04. 2026年,Harness Engineer会干掉Prompt Engineer吗

这是圈子里正在吵的一个话题。

我的判断(也是Sam Altman在内部一个闭门会上模糊提过的方向):未来三年,纯Prompt Engineer会消失,Harness Engineer会成为AI应用团队的标准配置。

为什么,因为:

  • Prompt Engineering是写给模型看的信,每次换模型都要重写。

  • Harness Engineering是搭给模型跑的轨道,换模型只需微调约束参数。

字节Seed团队里,已经没有人叫“提示词工程师”了。他们的title是“LLM Application Engineer – 约束与规划方向”

换个名字不说明什么,但职责变化说明了一切:你要会的不再是“写一段优雅的System Prompt”,而是设计状态机、写轻量校验器、画token预算表。


05. 给普通开发者的一句话

如果你是一个正在做大模型应用的工程师,Harness Engineering给你的不是一套新框架,而是一个新视角

不要再用这个模型聪明吗来评价一个AI系统。要问我的约束系统够稳吗

结语:

如果对你有帮助,请点赞,关注,收藏,你的支持就是我最大的鼓励!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 0:08:19

G-Helper终极指南:5分钟掌握华硕笔记本性能优化神器

G-Helper终极指南:5分钟掌握华硕笔记本性能优化神器 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expe…

作者头像 李华
网站建设 2026/5/13 0:06:41

Netfilter内核 API 解析

Netfilter Hook 管理&#xff08;最基础&#xff09;1. 注册 / 注销钩子#include <linux/netfilter.h> #include <linux/netfilter_ipv4.h>// 注册钩子 int nf_register_net_hook(struct net *net,const struct nf_hook_ops *ops);// 注销钩子 void nf_unregister_…

作者头像 李华
网站建设 2026/5/13 0:01:43

知识管理工具横评:技术人用Notion还是Obsidian?

——软件测试从业者的深度选型指南一、测试工程师的知识管理困境在软件测试的日常中&#xff0c;我们面对的是海量的用例、不断迭代的需求、复杂的缺陷关联以及跨团队的沟通信息。传统文件夹加Excel的模式早已不堪重负&#xff1a;用例版本混乱导致回归遗漏&#xff0c;经验教训…

作者头像 李华