文章摘要
谷歌资深工程师Antonio Gulli发布近500页技术指南,详述21种代理设计模式,帮助构建自主AI系统。涵盖从提示链到多代理协作的实用框架,适用于企业环境。已成亚马逊概率统计类新书榜首。
文末阅读原文或下面链接加入知识星球获取500页PDF电子书中英文版及PPT,以及持续更新的最前沿的GenAI大模型、知识图谱和行业落地最佳实践、论文、文章、电子书等:
PDF全文链接 - https://t.zsxq.com/NEolm
一、正文
1.引言:AI代理时代的到来
在人工智能迅猛发展的今天,构建高效、自主的AI系统已成为行业焦点。谷歌首席技术官办公室高级总监兼杰出工程师Antonio Gulli近日宣布,其新书《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》将于2025年12月3日正式发布。这本500页的技术指南填补了AI开发方法论的空白,提供详细的架构蓝图,帮助从业者从强大语言模型转向鲁棒的现实应用。
Gulli强调,构建有效的代理系统不仅仅依赖于强大的语言模型,还需要结构化的架构设计。“这关乎从原始能力转向鲁棒的现实世界应用,”他在导论中写道。 作为拥有超过30年AI、搜索和云计算经验的专家,Gulli持有比萨大学计算机科学博士学位,此前已出版多版《Deep Learning for Keras》等技术著作。
本书的发布时机恰逢行业对AI代理开发的关注度飙升。谷歌云预测,到2040年,代理AI市场规模将达1万亿美元,企业采用率达90%。这反映出对自主AI系统的巨大需求,这些系统能以最小人类干预执行复杂工作流。 其他公司如Anthropic、OpenAI和麦肯锡也发布了相关资源,但Gulli的指南以其技术深度和实践焦点脱颖而出。
书籍核心内容:21种代理设计模式
本书呈现了21种独特的代理设计模式,这些模式作为构建自主AI系统的基本构建块。从基础概念如提示链(Prompt Chaining)和工具使用(Tool Use),到高级实现如多代理协作(Multi-Agent Collaboration)和自校正框架(Self-Correction)。每个模式都是针对构建智能、目标导向系统时常见挑战的可重用解决方案。
书籍结构采用实用方法论,每章聚焦一个代理模式,提供模式概述、使用案例、动手代码示例和关键要点。 根据目录,第一部分涵盖103页的核心执行模式,
包括:
提示链(Prompt Chaining):通过序列化提示来处理复杂任务。
路由(Routing):动态选择处理路径。
并行化(Parallelization):同时执行多个子任务。
反射(Reflection):代理自我评估输出。
工具使用(Tool Use):集成外部工具如API。
规划(Planning):分解任务为可管理步骤。
多代理系统(Multi-Agent):多个代理协作完成目标。
第二部分用61页探讨内存管理和学习能力,包括:
内存管理(Memory Management):维护交互上下文。
学习与适应(Learning and Adaptation):从经验中改进。
模型上下文协议(Model Context Protocol, MCP):标准化上下文处理。
目标设定(Goal Setting):定义和监控目标。
第三和第四部分总计114页,覆盖高级主题如异常处理(Exception Handling)、人机协作(Human-in-the-Loop)、知识检索(Knowledge Retrieval)和安全实现(Safety)。
(书籍目录表格)
| 部分 | 章节 | 内容概述 |
|---|---|---|
| 第一部分 | 章节1-7 | 提示链、路由、并行化、反射、工具使用、规划、多代理(含代码示例) |
| 第二部分 | 章节8-11 | 内存管理、学习与适应、MCP、目标设定与监控 |
| 第三部分 | 章节12-14 | 异常处理与恢复、人机协作、知识检索(RAG) |
| 第四部分 | 章节15-21 | 代理间通信(A2A)、资源感知优化、推理技术、护栏/安全模式、评估与监控、优先级、探索与发现 |
| 附录 | A-G | 高级提示技术、代理框架概述、构建代理等 |
此表格基于原文目录,展示了书籍的全面结构。
书籍的技术规格详述了多种实现框架:LangChain及其扩展LangGraph用于构建复杂操作序列;CrewAI用于协调多个代理;Google Agent Developer Kit用于评估和部署。这确保了跨不同技术环境的广泛适用性。
实践导向的技术深度
本书强调实践实现而非理论讨论,提供可执行代码示例、架构图和逐步实现指令。这满足了企业环境中对可行动AI开发资源的需求。 例如,在多代理协作中,代理可以分工处理任务,如一个代理负责规划,另一个执行工具调用。
行业验证通过社交媒体显现,多位技术领袖赞扬其实际价值。本书在亚马逊上被评为“概率与统计类#1新书”。
Gulli的背景为其增添权威性:30年AI经验,博士学位,多本著作。 经济背景显示,代理AI市场潜力巨大,到2040年达1万亿美元。
传统单提示交互不足以处理多步任务,代理模式提供结构化方法,将复杂目标分解为组件,同时保持工作流连贯性。 模式组合是关键进步,例如自主研究助理可集成规划用于任务分解、工具使用用于信息收集、多代理协作用于专业分析、反射用于质量保证。
内存管理模式允许代理维护短期对话上下文和长期知识保留,这将真正代理系统与简单反应模型区分开来。
安全与对齐考虑
安全和对齐获得专用覆盖,通过“护栏/安全模式”(Guardrails/Safety Patterns)。这些框架处理自主操作挑战,同时保持与预期目标的对齐,包括输入验证、输出过滤、人机监督集成和优雅降级能力。
书籍总计424页,附录提供高级提示技术、框架概述和实现指南。综合术语表定义了所有技术术语。
分发遵循开放访问原则,谷歌通过标准渠道公开技术文档,促进行业广泛采用。
对营销和企业的意义
本书发布标志着代理AI从实验技术向实用框架的成熟。对于营销专业人士,这意味着超越当前程序化广告的自动化机会。 AI搜索流量转化率比传统有机搜索高23倍,尽管流量小,这表明AI系统正改变用户内容互动方式。
谷歌最近引入的自动呼叫功能展示了代理在客服中的应用,自主联系企业获取信息。 指南的框架为营销团队提供构建自定义AI代理的结构化方法,用于活动管理、内容优化和客户互动自动化,而非依赖黑箱解决方案。
时间线:
- 2024年9月:谷歌发布AI代理架构白皮书。
- 2023年12月6日:谷歌引入Gemini多模态模型。
- 2025年12月:Gulli宣布书籍发布。
- 2023年末-2024年初:谷歌测试AI聊天广告。
- 2025年3月:谷歌推出搜索AI模式。
- 2025年5月:主要公司发布AI代理指南。
- 2025年6月:Ahrefs研究显示AI搜索转化率高23倍。
- 2025年7月16日:谷歌揭晓代理AI自动呼叫。
- 2025年7月27日:谷歌云预测1万亿美元市场。
总结与展望
Antonio Gulli的指南针对从强大模型到实用自主系统的差距,提供21种模式,涵盖执行、内存、先进主题。
对于专家和投资人,这本书不仅是技术资源,更是投资机会的信号。代理AI将重塑企业工作流,建议关注相关框架如LangChain。
第一部分核心执行模式详解
提示链(Prompt Chaining):此模式通过将复杂任务分解为顺序提示链,实现逐步处理。例如,在研究任务中,第一提示生成大纲,第二提示填充细节。这提高了AI的准确性和连贯性。在企业中,可用于自动化报告生成。 代码示例包括Python实现,使用LangChain序列化提示。
路由(Routing):动态路由根据输入选择路径,如根据用户查询路由到特定工具。这类似于网络路由,但应用于AI决策。在医疗诊断代理中,可路由到不同专家模型。
并行化(Parallelization):允许多个子任务同时执行,加速处理。例如,并行查询多个数据库。适用于大数据分析。
反射(Reflection):代理评估自身输出并迭代改进。这增强了自校正能力,在代码调试代理中尤为有用。
工具使用(Tool Use):集成外部工具,如调用天气API。代码示例展示如何在LangGraph中定义工具。
规划(Planning):任务分解为子目标,使用树状结构规划路径。在项目管理AI中,可自动生成Gantt图。
多代理(Multi-Agent):多个代理协作,如一个规划、一个执行。这模拟团队合作,在供应链优化中应用。
第二部分内存与学习
内存管理:包括短期和长期内存,确保上下文连续。在聊天机器人中,记住用户偏好。
学习与适应:代理从交互中学习,调整行为。类似于强化学习,但更结构化。
MCP:标准化上下文协议,提高兼容性。
目标设定与监控:定义目标并跟踪进度,在自治系统中关键。
第三与第四部分高级主题
异常处理:处理错误并恢复,如重试机制。
人机协作:集成人类反馈,确保安全。
知识检索(RAG):检索增强生成,提高事实准确性。
代理间通信(A2A):代理间消息传递。
资源感知优化:管理计算资源。
推理技术:高级推理如链式思考。
护栏/安全模式:防止偏差,包括过滤有害输出。
评估与监控:度量代理性能。
优先级:任务排序。
探索与发现:代理主动探索新知识。
附录与额外资源
附录包括高级提示、框架概述、CLI代理等。
结语
这本书为专业人士提供构建AI代理的全面蓝图,值得投资和研究。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。