写在前面
欢迎大家关注Rocky的公众号:WeThinkIn
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源:【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
AIGC算法岗/开发岗面试面经交流社群(涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0
大家好,我是Rocky。
核心导读
《AutoAgents: A Framework for Automatic Agent Generation》是一篇 IJCAI 2024 论文,arXiv 最新版本为 2024 年 4 月 29 日的 v3。它讨论的不是“让一个 Agent 更会执行任务”,而是一个更上层的问题:当任务本身复杂、多变、跨领域时,能不能让系统自动生成一支合适的 Agent 团队,再让这支团队按计划协作完成任务。
Rocky 认为,这篇论文的核心价值不在于某个单点 Prompt 模板,而在于它把 Agent 框架从“预设几个角色”推进到“根据任务动态组队”。在 AutoGPT、BabyAGI、Camel、MetaGPT、AutoGen 这些框架里,很多系统要么是单 Agent,要么是固定角色,要么需要用户提前定义角色。AutoAgents 想解决的痛点是:真实任务并不总是适合固定团队。写小说、开放问答、软件开发、跨领域创作,每个任务需要的专家组合、执行步骤、协作方式都不同。
如果用一句话概括 AutoAgents:它不是让 Agent 自己蛮干,而是先让一个“规划委员会”生成角色和计划,再让一个“执行经理”调度动态团队,通过自我修正、协同修正和多层记忆完成任务。
这篇论文最值得关注的地方有四点:
第一,它把多智能体系统拆成两个阶段:Drafting Stage 和 Execution Stage。前者负责生成团队和计划,后者负责执行、协调、记忆和修正。
第二,它提出三个预定义观察者/管理型角色:Planner、Agent Observer、Plan Observer,用来反复检查“角色是否合理”和“计划是否合理”。这相当于在任务执行前做一次组织设计。
第三,它在执行阶段引入 Action Observer,负责协调动态生成的 Agent 团队,并通过 long-term memory、short-term memory、dynamic memory 三层记忆管理任务状态。
第四,它把单 Agent 的 self-refinement 和多 Agent 的 collaborative refinement 同时纳入框架,试图解决“单个专家要做深、多专家要协作”的问题。
这篇论文对今天做复杂 Agent 工程很有启发。很多 Agent 项目失败,不是因为模型完全没有能力,而是因为团队结构、任务分解、状态管理、反馈机制太粗糙。AutoAgents 的真正启示是:Agent 的生产力不只来自模型能力,还来自组织能力。
问题背景:作者到底想解决什么
LLM 作为通用任务求解器已经展现出很强能力,但单个大模型在复杂任务上仍然容易遇到几个问题:知识和推理负荷过大,长期规划不稳,容易幻觉,难以把多领域信息整合成一致输出。人类处理复杂问题时,通常不会只靠一个人从头做到尾,而是通过角色分工和协作来提升质量。论文正是从 collaborative problem solving 的视角出发,把多智能体协作看成提升 LLM 任务能力的一种系统方法。
此前已有不少 LLM-based multi-agent 系统。AutoGPT 更像单 Agent 自主执行;BabyAGI 有任务创建、排序、执行等固定模块;Camel 强调角色扮演式对话;MetaGPT 面向软件工程设定固定岗位;AutoGen 提供多 Agent 对话框架。但这些系统普遍依赖手工预设角色、固定协作流程,或者由用户显式指定 Agent。问题在于:复杂任务的专家组合应该随任务变化,而不是被框架提前写死。
论文用表 1 对比了不同框架在动态 Agent 生成、Agent 数量、多 Agent 对话、自我修正、协同修正上的差异。AutoAgents 的定位很清晰:它希望在“自动生成多 Agent 团队”和“团队内部协作修正”上同时前进。
| Framework | Dynamic Agent Generation Method | Number of Agent | Multi-agent Conversation | Self-Refinement Action | Collaborative Refinement Action |
|---|---|---|---|---|---|
| AutoGPT | 无 | 1 | 无 | 有 | 无 |
| BabyAGI | 无 | 3 | 有 | 无 | 无 |
| Generative Agents | 无 | 25 | 有 | 有 | 无 |
| Camel | 无 | 2 | 有 | 无 | 无 |
| MetaGPT | 无 | Unlimited | 有 | 无 | 无 |
| AutoGen | 无 | Unlimited | 有 | 无 | 无 |
| ExpertPrompting | Single Agent | 1 | 无 | 无 | 无 |
| SSP | Single Agent | Unlimited | 有 | 无 | 无 |
| AgentVerse | Single Agent | Unlimited | 有 | 无 | 无 |
| AutoAgents | Multi-agent Discussion | Unlimited | 有 | 有 | 有 |
这张表有一个很关键的判断:过去很多系统即使允许多 Agent 对话,也不等于真正解决了“团队如何为当前任务生成”的问题。一个角色固定的系统,在特定垂类里可能很强,但跨任务泛化能力会受限制。AutoAgents 的论文问题,就是如何让系统根据任务自动生成合理的角色集合、执行计划和协作流程。
核心思路:用一句主线串起来
AutoAgents 的主线可以拆成四个层次。
第一层是动态组队。系统先根据用户任务生成一组专家 Agent,每个 Agent 都有 prompt、description、toolset、suggestions。这里的重点不是“多生成几个角色”,而是把角色和任务内容绑定起来,让团队结构适配任务。
第二层是计划校验。Planner 生成 Agent 列表和执行计划后,不直接进入执行,而是通过 Agent Observer 和 Plan Observer 做多轮反馈。Agent Observer 检查角色是否完整、是否冗余、是否匹配任务;Plan Observer 检查计划是否有对应 Agent、步骤是否足够、输入输出是否连贯。
第三层是执行协同。生成的团队进入 Execution Stage 后,由 Action Observer 负责协调任务执行。单个 Agent 可以进行 self-refinement,多 Agent 可以进行 collaborative refinement。Action Observer 不是普通参与者,而是任务经理:分配任务、组织沟通、监控结果、根据状态调整执行。
第四层是记忆共享。AutoAgents 使用 short-term memory、long-term memory、dynamic memory 三种记忆。短期记忆记录单个动作的修正过程,长期记忆记录多步任务的历史轨迹,动态记忆由 Action Observer 从长期记忆中抽取当前动作需要的关键信息。
Rocky 认为,这条主线背后的本质是:AutoAgents 把多 Agent 协作从“角色扮演”推进到了“组织工程”。它关心的不只是 Agent 说什么,而是团队如何被生成、计划如何被审查、任务如何被分配、历史如何被压缩、反馈如何进入下一步。
方法展开:沿着论文原始逻辑拆解
总体框架:从用户任务到动态 AI 团队
论文首先给出 AutoAgents 的总体示意图。系统从用户输入出发,生成一组专门面向当前任务的 Agent 和对应执行计划,然后让这些 Agent 协作完成任务,并由观察者监控 Agent 和计划的生成执行质量。
图 1 用“写一部关于人工智能觉醒的小说”作为例子。系统并不是让一个通用写作 Agent 直接输出小说,而是生成 Story Planner、Researcher、Character Developer、Writer 等角色,让不同专家分别负责情节、背景研究、人物塑造和内容写作。Observer 则监控团队和计划,保证过程质量与一致性。
这张图真正想表达的是:AutoAgents 不是“一个模型多个马甲”,而是让模型在不同角色提示、任务责任和协作协议下形成一个临时组织。这个临时组织的结构由任务决定,而不是由开发者提前写死。
两阶段机制:Drafting Stage 与 Execution Stage
AutoAgents 的核心流程分为 Drafting Stage 和 Execution Stage。Drafting Stage 决定“用什么团队、按什么计划做”,Execution Stage 决定“这个团队如何执行、沟通、修正和交付”。
图 2 展示了完整执行过程。Drafting Stage 中,三个预定义 Agent 协同工作:Planner 生成 Agent 列表和执行计划,Agent Observer 检查角色合理性,Plan Observer 检查计划合理性。经过多轮反馈后,系统得到一个更稳定的 Agent 团队和执行计划。
Execution Stage 中,Action Observer 进入任务经理角色,协调动态生成的 Agent 团队执行计划。生成的 Agent 可以进行自我修正,也可以和其他 Agent 协同修正。最终,系统把每一步执行结果写入记忆,并继续推进后续任务。
这套设计解决了一个常见问题:许多 Agent 系统直接从用户任务跳到执行,中间缺少“组织设计”和“计划审查”。AutoAgents 把这个中间层显式化了。Rocky 认为,这一点非常关键,因为复杂任务的失败往往发生在执行之前:角色不对、计划不全、依赖关系不清,后面再努力也只能局部补救。
Drafting Stage:先生成团队,再生成计划
Drafting Stage 的目标,是为当前任务生成合适的 Agent 团队和执行计划。论文设计了三个预定义角色。
Planner 负责根据任务内容生成并改进 Agent team 和 execution plan。Agent Observer 负责检查 Agent 团队成员是否合理、是否匹配任务、是否缺少必要元素。Plan Observer 负责检查执行计划是否合理、是否匹配任务和团队、是否存在步骤遗漏。
每个生成 Agent 被表示为:
A = { P , D , T , S } \mathcal{A}=\{\mathrm{P},\mathrm{D},\mathrm{T},\mathrm{S}\}A={P,D,T,S}
其中P \mathrm{P}P是 prompt,定义角色 profile、goal、constraints;D \mathrm{D}D是 description,用于补充角色身份和职责;T \mathrm{T}T是 toolset,从预定义工具集中选择;S \mathrm{S}S是 suggestions,用于指导 Agent 执行当前任务。
这个表示看似简单,但非常有工程价值。它把 Agent 从一句“你是某某专家”扩展成一个更完整的执行单元:身份、职责、工具、建议都被结构化描述。这样 Agent Observer 才能检查它是否缺字段、是否冗余、是否不匹配任务。
Plan Generation 与 Agent Generation 并行进行。Planner 生成执行计划:
P = { S 1 , S 2 , ⋯ , S n } P=\{\mathcal{S}_1,\mathcal{S}_2,\cdots,\mathcal{S}_n\}P={S1,S2,⋯,Sn}
每个步骤S i \mathcal{S}_iSi都需要指定负责 Agent、输入信息和预期输出。Plan Observer 会检查每一步是否有对应 Agent,步骤是否足够完成任务,输入输出是否前后连贯。
Rocky 认为,AutoAgents 在这里的本质贡献是把“角色生成”和“计划生成”绑定起来。很多多 Agent 系统容易出现两种问题:要么角色很丰富但没人知道谁该做什么,要么计划很详细但没有合适角色负责。AutoAgents 要求每个步骤都能落到 Agent,每个 Agent 又要为任务服务。
两类执行动作:单体自我修正与多体协同修正
AutoAgents 在任务执行中定义了两类动作:self-refinement 和 collaborative refinement。
图 3 展示了两种动作的区别。Self-refinement 是单个 Agent 对自己的输出进行思考、计划、执行和反馈修正,适合专业任务内部的迭代改进。Collaborative refinement 是多个 Agent 通过对话交换知识、整合观点,适合需要跨领域知识融合的任务。
论文把单 Agent 在第t tt步的动作表示为:
a t = l t ∪ p t ∪ o t a_t=l_t \cup p_t \cup o_tat=lt∪pt∪ot
其中l t l_tlt是 thought 或 reasoning trace,代表语言空间里的中间推理;p t p_tpt是执行计划;o t o_tot是执行步骤和输出。这个公式的意义不在数学复杂性,而在于它把一个 Agent 的行动拆成三个层面:想法、计划、结果。
Self-refinement 的价值在于让单个专家角色做深。例如程序员 Agent 先写伪代码,再生成程序文件,再根据反馈修正。这种机制对代码、数学、写作等需要多轮打磨的任务有帮助。
Collaborative refinement 的价值在于让多个专家做横向整合。例如写故事时,事实专家、语言专家、情节专家需要交换意见,确保故事既包含正确答案,又保持叙事连贯。对于复杂任务来说,单个 Agent 再强,也很难同时覆盖所有专业视角。
这里有一个很重要的工程判断:多 Agent 协作不是 Agent 越多越好,而是要区分什么时候适合单体深挖,什么时候需要多人协同。AutoAgents 通过 Drafting Stage 生成计划,把这两类动作嵌入不同步骤,这是它比纯对话式多 Agent 更稳定的地方。
Execution Stage:Action Observer 与三层记忆
进入 Execution Stage 后,系统不再只是让生成 Agent 轮流说话,而是引入 Action Observer 作为团队执行经理。Action Observer 负责为不同 Agent 分配任务,验证每个 Agent 的执行结果,根据执行状态动态调整计划,并协调团队达成一致。
论文采用 vertical communication paradigm,即根据角色分配不同任务,由 Action Observer 组织执行。对于软件开发这类目标明确、步骤较长的任务,垂直协调通常比无组织的平等讨论更适合。否则多个 Agent 很容易在同一层面反复争论,无法推进任务。
AutoAgents 还设计了三层知识共享机制。
图 4 展示了 long-term memory、short-term memory、dynamic memory 的区别。
Short-term memory 记录单个 action 内部的中间思路、计划和结果,尤其是 self-refinement 或 collaborative refinement 的历史。它解决的是当前动作内部“刚刚发生了什么”。
Long-term memory 记录多个 action 的历史轨迹,尤其是每个任务步骤的执行结果和关键反馈。它解决的是整个任务进程“已经完成了什么”。
Dynamic memory 由 Action Observer 从 long-term memory 中抽取当前动作需要的关键信息。它解决的是“当前 Agent 此刻最需要知道什么”。这比把全部历史塞给每个 Agent 更现实,因为上下文窗口有限,且过多无关信息会干扰决策。
Rocky 认为,这个三层记忆设计非常接近真实 Agent 工程中的状态管理问题。长期记忆不能简单等于聊天记录,短期记忆不能无限膨胀,动态记忆必须和当前动作绑定。真正难的不是“保存”,而是“选择性恢复”。
论文给出的算法流程可以概括为:
- 初始化 Planner、Agent Observer、Plan Observer。
- Planner 生成初始 Agent team 和 execution plan。
- Agent Observer 和 Plan Observer 反复反馈,Planner 修正团队与计划。
- 进入 Execution Stage,初始化 Action Observer 和 long-term memory。
- 对每个计划步骤,Action Observer 生成 dynamic memory,分配任务给对应 Agent。
- Agent 基于短期记忆和动态记忆执行 self-refinement 或 collaborative refinement。
- 执行结果进入 long-term memory,Action Observer 继续协调下一步。
这套流程的关键是,AutoAgents 把 Agent 生成、计划生成、任务执行、记忆更新、结果交付串成了一个闭环,而不是停留在“多个角色互相聊天”的层面。
实验与证据:结果能支撑到什么程度
论文主要用两个定量任务和一个软件工程案例来验证 AutoAgents:Open-ended Question Answer、Trivia Creative Writing,以及 Tetris 软件开发案例。实验均使用 GPT-4 API,温度设为 0。Drafting 阶段最大讨论轮数为 3,执行阶段单 Agent self-refinement 和多 Agent collaborative refinement 最大轮数为 5。
Open-ended Question Answer:开放问答中的胜率
开放问答任务使用 MT-bench 中的 80 个高质量开放问题,比较 AutoAgents 与 Vicuna-13B、ChatGPT、GPT-4 的回答质量。评估包括 FairEval 和人工评估。
| Evaluator | vs ChatGPT | vs Vicuna-13B | vs GPT-4 |
|---|---|---|---|
| FairEval | 96.3% | 96.3% | 76.3% |
| HumanEval | 75% | 75% | 62.5% |
表 2 显示,AutoAgents 在 FairEval 和人工评估下都相对单模型有较高胜率,甚至相对 GPT-4 也取得 76.3% 的 FairEval 胜率和 62.5% 的人工评估胜率。
这个结果可以支持一个判断:在开放问答这种需要多视角组织信息的任务上,动态生成专家团队和协作回答,可能比单次模型回答更细致、更全面。
但也要注意,FairEval 仍然是 LLM-based evaluator,可能存在偏差;人工评估样本规模和评价标准也会影响结论。因此,这个结果更适合被理解为“AutoAgents 在开放回答质量上有明显信号”,而不是证明它在所有开放问答中稳定优于 GPT-4。
Trivia Creative Writing:知识整合与创作一致性
Trivia Creative Writing 要求模型围绕给定主题写一个连贯故事,并且把N NN个 trivia questions 的答案融入故事。论文评估N = 5 N=5N=5和N = 10 N=10N=10两种设置,每个设置 100 个实例,共 1000 个 trivia questions。
| Methods | N=5 Score | N=5 Δ | N=10 Score | N=10 Δ |
|---|---|---|---|---|
| Standard | 74.6 | 0.0% | 77.0 | 0.0% |
| CoT | 67.1 | -10.0% | 68.5 | -11.1% |
| SPP-Profile | 79.1 | +5.9% | 83.0 | +7.8% |
| SPP | 79.9 | +7.1% | 84.7 | +10.0% |
| AutoAgents | 82.0 | +9.9% | 85.3 | +10.8% |
表 3 显示,AutoAgents 在两个设置下都优于 Standard、CoT、SPP-Profile 和 SPP。尤其值得注意的是,CoT 反而低于 Standard,说明在这个任务里,单纯让模型“多思考”并不一定提升知识整合能力。AutoAgents 的优势来自更细颗粒度的角色分工、信息检索式组织和协同修正。
论文使用的自动指标是:生成故事中正确出现 trivia question 目标答案的比例。这个指标能衡量“是否把答案融入文本”,但不能完全衡量故事质量、自然性和事实上下文。因此它对知识覆盖有效,对创作质量只能部分反映。
消融实验:观察者、自我修正、协同修正、动态记忆的作用
论文在 Trivia Creative Writing 的 20 个实例上做了消融实验。
| Methods | Score | Δ vs Standard |
|---|---|---|
| Standard | 74.6 | 0.0% |
| CoT | 66.0 | -11.5% |
| SPP-Profile | 74.0 | -0.01% |
| SPP | 84.4 | +13.1% |
| AutoAgents w/o observers | 87.0 | +16.6% |
| AutoAgents w/o self-refinement | 87.0 | +16.6% |
| AutoAgents w/o collaborative refinement | 88.0 | +18.0% |
| AutoAgents w/o dynamic memory | 89.0 | +19.3% |
| AutoAgents | 90.0 | +20.6% |
表 4 说明,完整 AutoAgents 得分最高。去掉 observers 或 self-refinement 后下降约 3 分,去掉 collaborative refinement 后下降约 2 分,去掉 dynamic memory 后下降约 1 分。
这个消融结果很有意思,因为它说明 AutoAgents 的性能不是只靠“多几个 Agent”获得的。观察者机制、单体自我修正、多体协作修正、动态记忆都在贡献增益,只是贡献大小不同。
图 5 用 Tetris 软件开发任务展示了观察者机制的作用。没有 Observer 反馈时,Planner 容易只生成 programmer 角色,忽略游戏设计、UI、测试等完整软件开发过程。有 Observer 反馈后,Agent 团队更接近真实项目中的分工。这说明“动态生成角色”本身还不够,角色生成也需要被审查。
软件工程案例:从写代码到构建小型开发团队
论文还展示了一个 Tetris 游戏开发案例。AutoAgents 为该任务生成游戏设计专家、UI 设计专家、程序员、调试专家等角色,分别产出游戏逻辑文档、UI 组件设计、程序实现和调试测试结果。
图 6 表明,AutoAgents 在软件开发任务中更像是自动组织一个小型团队,而不是让单个模型直接写完整代码。这个思路和 MetaGPT 等软件工程 Agent 有共通之处,但 AutoAgents 更强调团队角色由任务动态生成,而不是固定为产品经理、架构师、工程师、测试等预设岗位。
从证据强度看,这个案例主要展示可行性和流程形态,不足以证明 AutoAgents 在软件工程中系统性优于其他框架。真正要证明软件工程效果,还需要更多任务、可运行率、测试通过率、代码质量、人类评审等指标。
附录案例:自我修正、协同修正和动态 Agent 的可视化证据
论文附录提供了更多过程案例,用来展示框架内部组件如何工作。
图 7 展示程序员 Agent 先写伪代码文件,再生成对应程序文件的过程。它说明 self-refinement 在代码类任务中可以把粗粒度想法逐步落成更具体产物。
图 8 展示多个 Agent 如何在创意写作任务中交换意见、保证故事一致性。它说明 collaborative refinement 更适合跨领域信息整合,而不是单个 Agent 闭门修正。
图 9 展示开放问答中 AutoAgents 相比 GPT-4 可以生成来自不同领域的 Agent,从多视角回答问题。这个案例直观支持论文的主张:动态角色能带来更丰富的回答结构。
图 10 和图 11 展示 AutoAgents 如何把 trivia answers 融入故事生成。论文强调,AutoAgents 通常会先用领域 Agent 找出答案,再构造叙事,并由语言专家检查叙事与答案的一致性。
图 12 展示 Action Observer 如何协调多个生成 Agent,并提取关键信息促进任务推进。它支撑了论文对 Action Observer 的定位:不是普通回答者,而是执行阶段的协调器。
这篇工作的边界与可复现性
AutoAgents 的设计很有启发,但边界也需要看清楚。
首先,论文的性能主要建立在 GPT-4-0613 上。作者也承认,AutoAgents 目前比较依赖强模型的逻辑和文本能力,对早期或较弱 LLM 的适配性较差。这意味着框架能力不是完全独立于基础模型的。动态组队可以放大模型能力,但不能凭空创造稳定推理能力。
其次,动态角色生成本身也可能出错。Planner 可能生成不合理角色,Observer 也可能漏检。虽然论文用 Agent Observer 和 Plan Observer 提升稳定性,但它们本质上仍由 LLM 驱动,仍可能出现误判。对于高风险任务,仅靠模型自检和多 Agent 讨论是不够的。
第三,实验任务具有一定代表性,但还不足以覆盖复杂现实任务。Open-ended QA 和 Trivia Creative Writing 适合验证多视角回答与知识整合,Tetris 案例适合展示软件工程流程,但还不能证明 AutoAgents 在企业级代码、科研证明、长周期项目管理等场景中稳定可靠。
第四,评价指标存在局限。Trivia Creative Writing 的字符串匹配指标可以衡量答案是否出现,但不能完整衡量叙事质量。FairEval 虽然缓解 LLM 评价偏差,但仍属于模型评估模型。论文提供人工评估,但规模和细节仍有进一步扩展空间。
第五,AutoAgents 的 prompt 和附录非常长,实际运行成本、延迟、上下文消耗都不可忽视。动态生成团队、观察者多轮反馈、执行阶段多轮修正,会显著增加 token 成本和系统复杂度。工程落地时必须在质量增益和成本之间权衡。
最后,论文源代码仓库公开在https://github.com/Link-AGI/AutoAgents,这有助于复现框架思路。但完整复现仍依赖模型 API、Prompt 配置、评测数据、运行参数和人工评估流程。对于严肃科研复现,还需要进一步核对版本、随机性、评估脚本和样本选择。
如果继续研究/落地,应该关注什么
Rocky 认为,AutoAgents 后续最值得继续研究的不是“生成更多角色”,而是五个更硬的问题。
第一,角色生成需要从语言合理性走向能力验证。现在的 Agent 角色主要由 prompt 定义,角色是否真有能力完成任务,更多依赖基础模型泛化能力。未来更强的系统应该能够验证角色能力,比如通过小测试、工具调用记录、历史成功率或专业知识库绑定来判断这个 Agent 是否真的胜任。
第二,计划生成需要从自然语言步骤走向可执行工作流。AutoAgents 的计划仍以语言描述为主。对于软件开发、科学实验、Lean4 证明、企业流程自动化等长任务,计划最好能转成 DAG、状态机、任务队列或可回滚 workflow,这样系统才能检查依赖、并行执行、失败重试和验收条件。
第三,Observer 机制需要外部事实和规则支撑。Agent Observer、Plan Observer、Action Observer 都很有价值,但如果它们只依赖同一个 LLM 的判断,容易形成“模型互相安慰”。更可靠的做法是让 Observer 接入工具、测试、静态分析、检索证据、形式化约束和人类审批。
第四,记忆机制需要走向可治理。AutoAgents 的三层记忆方向正确,但真实系统还要处理记忆过期、错误记忆污染、权限隔离、来源可信度、跨任务迁移和隐私保护。特别是长耗时任务里,长期记忆如果没有结构化治理,会慢慢变成噪声仓库。
第五,成本和稳定性必须成为系统指标。多 Agent 框架天然更贵、更慢、更难调试。一个好的自动组队系统,不能只追求回答质量,还要记录 token 消耗、调用次数、失败率、平均完成时间、人类介入次数和可恢复性。
对 Lean4 Agent、复杂证明、长耗时自动化任务这类方向来说,AutoAgents 的启发尤其明显。证明任务通常需要角色分工:定理理解、相关引理检索、证明草图规划、Lean 代码生成、错误诊断、局部修复、全局压缩、最终审稿。真正难的不是让一个模型反复尝试,而是让这些能力形成稳定流程。AutoAgents 的“动态组队 + 观察者校验 + 多层记忆”可以作为一个参考架构,但必须引入 Lean 编译器反馈、本地 mathlib 检索、定理依赖图和长期证明轨迹管理,才能变成可用的证明系统。
术语与概念速查
| 概念 | 论文中的含义 | Rocky 视角下的本质 |
|---|---|---|
| AutoAgents | 自动生成并协调多 Agent 团队的框架 | 根据任务动态组织 AI 团队 |
| Drafting Stage | 生成 Agent 团队和执行计划的阶段 | 执行前的组织设计与计划审查 |
| Execution Stage | 动态团队执行任务并修正结果的阶段 | 从计划到交付的协作闭环 |
| Planner | 生成角色和计划的预定义 Agent | 团队架构师与任务规划者 |
| Agent Observer | 检查角色合理性的观察者 | 组织结构审查者 |
| Plan Observer | 检查计划合理性的观察者 | 工作流审查者 |
| Action Observer | 执行阶段的协调者 | 项目经理/调度器 |
| Self-refinement | 单个 Agent 自我评估和迭代改进 | 专家内部深度打磨 |
| Collaborative refinement | 多个 Agent 协作交换意见并修正 | 跨专业知识融合 |
| Short-term memory | 单个 action 内部历史 | 当前步骤工作缓存 |
| Long-term memory | 多 action 执行轨迹 | 全局任务状态 |
| Dynamic memory | 从长期记忆中抽取当前动作所需信息 | 面向当前任务的上下文恢复 |
| Agent Bank | 论文未来工作中提到的专业 Agent 调用池 | 可复用专家能力市场 |
拓展思考:值得继续扩展研究与思考的创新点
AutoAgents 这篇论文真正有价值的地方,是把 Agent 的讨论从“单体能力”推到了“组织能力”。过去我们常说模型能力、工具调用、记忆系统,但复杂任务真正落地时,最容易被低估的是组织结构:谁负责拆任务,谁负责检查角色,谁负责检查计划,谁负责协调执行,谁负责记忆压缩,谁负责最终验收。
Rocky 认为,这种“组织工程”会成为下一阶段 Agent 系统的重要分水岭。单 Agent 很像一个能力很强但容易疲劳的全能实习生,多 Agent 系统则像一个临时项目组。如果项目组没有项目经理、没有验收标准、没有会议纪要、没有任务依赖、没有回滚机制,人越多越乱。AutoAgents 的意义就在于,它开始把这些组织机制显式放进 Agent 架构里。
但也要保持清醒。动态组队不等于动态能力,多个 Agent 讨论不等于真理更接近。很多时候,多 Agent 只是让同一个基础模型在多个 Prompt 下产生不同视角。它确实能提升覆盖度和鲁棒性,但不能替代外部验证、专业工具和真实环境反馈。
因此,这篇论文对产业落地最重要的启发不是“马上套一个 AutoAgents 框架”,而是把复杂任务拆成三层问题:
第一,任务需要什么角色;
第二,角色之间如何协作;
第三,协作过程如何被验证和记忆。
对于 AI Agent 创业和产品研发来说,真正的护城河也许不在“我有多少个 Agent”,而在“我能否为某类高价值任务沉淀出稳定的角色体系、工具协议、数据记忆和验收闭环”。工具会迭代,模型会升级,框架会更替,但对复杂任务的组织理解会留下。
最后回到 AutoAgents 本身。它不是终点,但它抓住了一个关键方向:当 Agent 从回答问题走向完成任务,从单次生成走向长程协作,从通用聊天走向复杂工作流,系统必须学会自动组织一支合适的团队。Agent 的下一步,不只是更聪明的大脑,而是更可靠的组织。
参考资料
- Guangyao Chen et al. AutoAgents: A Framework for Automatic Agent Generation. IJCAI 2024.
- Link-AGI. AutoAgents GitHub Repository.
- Qingyun Wu et al. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. 2023.
- Sirui Hong et al. MetaGPT: Meta Programming for Multi-Agent Collaborative Framework. 2023.
- Weize Chen et al. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. 2023.
- Zhenhailong Wang et al. Unleashing Cognitive Synergy in Large Language Models. 2023.
推荐阅读
Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
3. 深入浅出完整解析FLUX.2、Seedream(即梦)、Z-image、GLM-Image核心基础知识
https://zhuanlan.zhihu.com/p/1975174691049189562
4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
5. 深入浅出完整解析DeepSeek系列核心基础知识
深入浅出完整解析DeepSeek系列核心基础知识
6、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识
7、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识
8、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
9、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:深入浅出完整解析Stable Diffusion(SD)核心基础知识
10、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:深入浅出完整解析ControlNet核心基础知识
11、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
12、深入浅出完整解析AIGC时代Transformer核心基础知识
在AIGC时代中,Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向,成为AI技术架构大一统与多模态整合的关键核心基座,大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析:
Transformer文章地址:深入浅出完整解析AIGC时代Transformer核心基础知识
13、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:手把手教你成为AIGC算法工程师,斩获AIGC算法offer!
14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:深入浅出完整解析主流AI绘画框架(ComfyUI、Stable Diffusion WebUI、Fooocus)核心基础知识
16、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
17. AI算法工程师的《三年面试五年模拟》求职秘籍
AIGC时代的算法工程师的求职面试秘籍(持续更新中)
18. AIGC产业的深度思考与分析
2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。
Rocky也认为,AIGC及其生态,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作、生活、学习以及交流方式,各行各业都将被重新定义,过程会非常有趣。
那么,在此基础上,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解:
深入浅出全面解析AIGC时代核心价值与发展趋势(2025年版)