如何把 Agent 推向生产?2025 年 12 月,LangChain 发布了一篇博客:Agent Engineering: A New Discipline。
这不是又一个新框架,而是对过去三年 Agent 开发经验的总结。LangChain 团队观察了数千个团队构建 Agent 的过程,发现成功把 Agent 推向生产的团队——Clay、Vanta、LinkedIn、Cloudflare——都在做一件相似的事。
他们称之为:Agent Engineering。
Prompt Engineering 教我们写好提示词。Context Engineering 教我们系统性地管理上下文。 而Agent Engineering 教我们如何把 Agent 真正推向生产。这是LLM 应用开发方法论的第三次演进。
这篇文章,带你拆解这套方法论。
0. 新学科诞生 — 什么是 Agent Engineering
根据 LangChain 的定义:
Agent Engineering 是将非确定性的 LLM 系统打磨成可靠生产体验的迭代过程。
其中关键词:非确定性、迭代、生产体验。
传统软件是确定性的。给定输入,输出可预测。你可以写单元测试,覆盖所有边界情况。
Agent 是非确定性的。同样的输入,可能有不同的输出。你永远无法在上线前覆盖所有场景。
所以 Agent Engineering 的核心循环是:
Build → Test → Ship → Observe → Refine → Repeat
注意顺序:Ship 在 Observe 之前。
传统开发思路:先完善,再上线。而 Agent 开发思路:先上线,再完善。
上线不是终点,而是获取洞察、改进 Agent 的起点。
1. 三种技能 — Agent Engineer 需要什么能力
Agent Engineering 融合了三种技能:
产品思维
- 定义 Agent 的边界:能做什么,不能做什么
- 写 Prompt:可能是几百甚至上千行的系统提示词
- 设计评估标准:什么叫"好",什么叫"不好"
Agent 不是在回答问题,而是在完成任务。这需要深入理解用户的"job to be done"。
工程能力
- 写工具:Agent 需要调用的 API、数据库、外部服务
- 做 UI/UX:流式输出、中断处理、人机协作界面
- 构建运行时:持久执行、检查点、内存管理
Agent 的可靠性,很大程度上取决于基础设施的可靠性。
数据科学
- 建立评估系统:自动化测试、A/B 测试、监控
- 分析使用模式:用户在问什么,Agent 在哪里出错
- 错误分析:Agent 的行为空间比传统软件大得多
你不能靠直觉改进 Agent,你需要数据。
2. 本质区别 — 为什么传统方法论不够用
Agent 和传统软件有三个本质区别:
每个输入都是边缘情况
传统软件有"正常输入"和"边缘情况"的区分。Agent 没有。
用户可以用自然语言说任何话。“让它更好看一点”、“像上次那样但不一样”——这些模糊指令,Agent 也得处理。
传统调试方法失效
传统软件出 bug,你可以打断点、看日志、复现问题。
Agent 出问题,大部分逻辑在模型里。你需要检查每一步决策、每一次工具调用。小小的 Prompt 改动,可能导致行为巨变。
"能用"不是二元的
传统软件要么能用,要么不能用。99.99% uptime 意味着系统健康。
Agent 可以 100% uptime,但完全跑偏。它在回答问题,但答案是错的。它在调用工具,但方式不对。它在遵循指令,但理解错了意图。
Agent 的可靠性,不能用传统指标衡量。
3. 实践方法 — 六步迭代循环
LangChain 观察成功团队后,总结出一套实践方法:
第一步:搭建基础
设计 Agent 架构。简单的 LLM + 工具循环,还是多 Agent 系统?需要多少 workflow(确定性流程),多少 agency(LLM 决策)?
第二步:测试能想到的场景
用示例场景测试,发现 Prompt、工具定义、流程的明显问题。
心态转变:不是"测完再上",而是"测得差不多就上,上了再看"。
第三步:上线看真实行为
一上线,你就会看到各种没想到的输入。每一条生产 trace 都在告诉你:Agent 真正需要处理什么。
第四步:观察
追踪每一次交互:完整对话、每次工具调用、每个决策的上下文。在生产数据上跑评估。
第五步:优化
找到失败模式后,改 Prompt、改工具定义。把问题案例加回测试集,做回归测试。
第六步:重复
上线改进,观察变化。每一轮循环都让你更了解用户如何使用 Agent。
4. 你的角色 — 如何参与 Agent Engineering
Agent Engineering 不是一个新岗位,而是现有角色的能力延伸。不同背景的人,分工不同:
如果你是工程师
重点关注工具和运行时。写好 Agent 调用的 API,构建可靠的执行环境,实现检查点和持久执行。同时也要参与 Prompt 编写、追踪 Agent 决策链路。
如果你是产品经理
重点关注边界定义。Agent 能做什么、不能做什么,这是产品决策。你会发现自己在写 Prompt——Prompt 本质上是产品需求的另一种表达。
如果你是数据科学家
重点关注评估和分析。建立评估体系,衡量 Agent 可靠性,从生产数据中发现改进机会。Agent 的行为空间比传统软件大得多,需要更系统的分析方法。
如果你是平台工程师
重点关注基础设施。Agent 需要持久执行、人机协作、流式输出——这些都是平台能力。
关键洞察:Agent Engineering 是跨职能的。工程师追踪到错误,可能需要 PM 调整 Prompt。PM 发现边界问题,需要工程师开发新工具。没有人能独自完成。这也对项目管理者提出更高的要求,要打破职能边界,让工程师、PM、数据科学家围绕同一个 Agent 紧密协作。迭代周期要短,反馈循环要快。
5. 演进脉络 — 从 Prompt 到 Context 到 Agent
Agent Engineering 是 LLM 应用开发方法论的第三次演进:
| 阶段 | 核心问题 | 关注点 |
|---|---|---|
| Prompt Engineering | 如何写好提示词? | 单次 LLM 调用的质量 |
| Context Engineering | 如何提供正确的上下文? | Agent 的能力边界 |
| Agent Engineering | 如何让 Agent 可靠运行? | 生产环境的可靠性 |
Prompt Engineering 教我们手工打磨 token。Context Engineering 教我们系统性管理输入——RAG、Tools、Skills。
Context Engineering 解决"Agent 能做什么"。Agent Engineering 解决"Agent 如何可靠地做"。
Agent Engineering = Prompt Engineering + Context Engineering + 生产化方法论
- 为什么是现在 — 两个根本性转变
转变一:LLM 足够强大
LLM 现在能处理复杂的多步骤工作流。Agent 在接管整个工作,而不只是任务。
Clay 用 Agent 处理从潜客研究到个性化外联到 CRM 更新的全流程。LinkedIn 用 Agent 扫描海量人才库,即时呈现最佳匹配。
转变二:能力带来不可预测性
让 Agent 强大的特性,也让它们行为异常。跨多步推理、调用工具、根据上下文适应——这些能力意味着每个输入都是边缘情况。
Agent 在运行真正有影响力的工作流,但行为方式传统软件无法解决。
7. 总结 — 一门新学科
成功把 Agent 推向生产的团队有一个共同点:他们不再追求上线前完美,而是把生产环境当作主要的老师。
追踪每个决策。大规模评估。以天为单位迭代,而不是以季度为单位。
正如 LangChain 文章标题所说,Agent Engineering 是一门新学科。
模型能力在提升,交互模式在进化,越来越多项目从 POC 走向生产。Agent 开发的方法论也必然随之演进,这不会是一套固定标准,而是在实践中不断完善。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。