一文读懂AutoAgents“自动生成多智能体团队”的系统本质原理-洪萨配资

写在前面

欢迎大家关注Rocky的公众号：WeThinkIn
欢迎大家关注Rocky的知乎：Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享：WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star～

AIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源：【三年面试五年模拟】AI算法工程师面试秘籍

Rocky最新撰写AI Agent（AI智能体）的深入浅出全维度解析文章：深入浅出完整解析AI Agent（AI智能体）的核心基础知识

AIGC算法岗/开发岗面试面经交流社群（涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源）欢迎大家加入：https://t.zsxq.com/33pJ0

大家好，我是Rocky。

核心导读

《AutoAgents: A Framework for Automatic Agent Generation》是一篇 IJCAI 2024 论文，arXiv 最新版本为 2024 年 4 月 29 日的 v3。它讨论的不是“让一个 Agent 更会执行任务”，而是一个更上层的问题：当任务本身复杂、多变、跨领域时，能不能让系统自动生成一支合适的 Agent 团队，再让这支团队按计划协作完成任务。

Rocky 认为，这篇论文的核心价值不在于某个单点 Prompt 模板，而在于它把 Agent 框架从“预设几个角色”推进到“根据任务动态组队”。在 AutoGPT、BabyAGI、Camel、MetaGPT、AutoGen 这些框架里，很多系统要么是单 Agent，要么是固定角色，要么需要用户提前定义角色。AutoAgents 想解决的痛点是：真实任务并不总是适合固定团队。写小说、开放问答、软件开发、跨领域创作，每个任务需要的专家组合、执行步骤、协作方式都不同。

如果用一句话概括 AutoAgents：它不是让 Agent 自己蛮干，而是先让一个“规划委员会”生成角色和计划，再让一个“执行经理”调度动态团队，通过自我修正、协同修正和多层记忆完成任务。

这篇论文最值得关注的地方有四点：

第一，它把多智能体系统拆成两个阶段：Drafting Stage 和 Execution Stage。前者负责生成团队和计划，后者负责执行、协调、记忆和修正。

第二，它提出三个预定义观察者/管理型角色：Planner、Agent Observer、Plan Observer，用来反复检查“角色是否合理”和“计划是否合理”。这相当于在任务执行前做一次组织设计。

第三，它在执行阶段引入 Action Observer，负责协调动态生成的 Agent 团队，并通过 long-term memory、short-term memory、dynamic memory 三层记忆管理任务状态。

第四，它把单 Agent 的 self-refinement 和多 Agent 的 collaborative refinement 同时纳入框架，试图解决“单个专家要做深、多专家要协作”的问题。

这篇论文对今天做复杂 Agent 工程很有启发。很多 Agent 项目失败，不是因为模型完全没有能力，而是因为团队结构、任务分解、状态管理、反馈机制太粗糙。AutoAgents 的真正启示是：Agent 的生产力不只来自模型能力，还来自组织能力。

问题背景：作者到底想解决什么

LLM 作为通用任务求解器已经展现出很强能力，但单个大模型在复杂任务上仍然容易遇到几个问题：知识和推理负荷过大，长期规划不稳，容易幻觉，难以把多领域信息整合成一致输出。人类处理复杂问题时，通常不会只靠一个人从头做到尾，而是通过角色分工和协作来提升质量。论文正是从 collaborative problem solving 的视角出发，把多智能体协作看成提升 LLM 任务能力的一种系统方法。

此前已有不少 LLM-based multi-agent 系统。AutoGPT 更像单 Agent 自主执行；BabyAGI 有任务创建、排序、执行等固定模块；Camel 强调角色扮演式对话；MetaGPT 面向软件工程设定固定岗位；AutoGen 提供多 Agent 对话框架。但这些系统普遍依赖手工预设角色、固定协作流程，或者由用户显式指定 Agent。问题在于：复杂任务的专家组合应该随任务变化，而不是被框架提前写死。

论文用表 1 对比了不同框架在动态 Agent 生成、Agent 数量、多 Agent 对话、自我修正、协同修正上的差异。AutoAgents 的定位很清晰：它希望在“自动生成多 Agent 团队”和“团队内部协作修正”上同时前进。

Framework	Dynamic Agent Generation Method	Number of Agent	Multi-agent Conversation	Self-Refinement Action	Collaborative Refinement Action
AutoGPT	无	1	无	有	无
BabyAGI	无	3	有	无	无
Generative Agents	无	25	有	有	无
Camel	无	2	有	无	无
MetaGPT	无	Unlimited	有	无	无
AutoGen	无	Unlimited	有	无	无
ExpertPrompting	Single Agent	1	无	无	无
SSP	Single Agent	Unlimited	有	无	无
AgentVerse	Single Agent	Unlimited	有	无	无
AutoAgents	Multi-agent Discussion	Unlimited	有	有	有

这张表有一个很关键的判断：过去很多系统即使允许多 Agent 对话，也不等于真正解决了“团队如何为当前任务生成”的问题。一个角色固定的系统，在特定垂类里可能很强，但跨任务泛化能力会受限制。AutoAgents 的论文问题，就是如何让系统根据任务自动生成合理的角色集合、执行计划和协作流程。

核心思路：用一句主线串起来

AutoAgents 的主线可以拆成四个层次。

第一层是动态组队。系统先根据用户任务生成一组专家 Agent，每个 Agent 都有 prompt、description、toolset、suggestions。这里的重点不是“多生成几个角色”，而是把角色和任务内容绑定起来，让团队结构适配任务。

第二层是计划校验。Planner 生成 Agent 列表和执行计划后，不直接进入执行，而是通过 Agent Observer 和 Plan Observer 做多轮反馈。Agent Observer 检查角色是否完整、是否冗余、是否匹配任务；Plan Observer 检查计划是否有对应 Agent、步骤是否足够、输入输出是否连贯。

第三层是执行协同。生成的团队进入 Execution Stage 后，由 Action Observer 负责协调任务执行。单个 Agent 可以进行 self-refinement，多 Agent 可以进行 collaborative refinement。Action Observer 不是普通参与者，而是任务经理：分配任务、组织沟通、监控结果、根据状态调整执行。

第四层是记忆共享。AutoAgents 使用 short-term memory、long-term memory、dynamic memory 三种记忆。短期记忆记录单个动作的修正过程，长期记忆记录多步任务的历史轨迹，动态记忆由 Action Observer 从长期记忆中抽取当前动作需要的关键信息。

Rocky 认为，这条主线背后的本质是：AutoAgents 把多 Agent 协作从“角色扮演”推进到了“组织工程”。它关心的不只是 Agent 说什么，而是团队如何被生成、计划如何被审查、任务如何被分配、历史如何被压缩、反馈如何进入下一步。

方法展开：沿着论文原始逻辑拆解

总体框架：从用户任务到动态 AI 团队

论文首先给出 AutoAgents 的总体示意图。系统从用户输入出发，生成一组专门面向当前任务的 Agent 和对应执行计划，然后让这些 Agent 协作完成任务，并由观察者监控 Agent 和计划的生成执行质量。

图 1 用“写一部关于人工智能觉醒的小说”作为例子。系统并不是让一个通用写作 Agent 直接输出小说，而是生成 Story Planner、Researcher、Character Developer、Writer 等角色，让不同专家分别负责情节、背景研究、人物塑造和内容写作。Observer 则监控团队和计划，保证过程质量与一致性。

这张图真正想表达的是：AutoAgents 不是“一个模型多个马甲”，而是让模型在不同角色提示、任务责任和协作协议下形成一个临时组织。这个临时组织的结构由任务决定，而不是由开发者提前写死。

两阶段机制：Drafting Stage 与 Execution Stage

AutoAgents 的核心流程分为 Drafting Stage 和 Execution Stage。Drafting Stage 决定“用什么团队、按什么计划做”，Execution Stage 决定“这个团队如何执行、沟通、修正和交付”。

图 2 展示了完整执行过程。Drafting Stage 中，三个预定义 Agent 协同工作：Planner 生成 Agent 列表和执行计划，Agent Observer 检查角色合理性，Plan Observer 检查计划合理性。经过多轮反馈后，系统得到一个更稳定的 Agent 团队和执行计划。

Execution Stage 中，Action Observer 进入任务经理角色，协调动态生成的 Agent 团队执行计划。生成的 Agent 可以进行自我修正，也可以和其他 Agent 协同修正。最终，系统把每一步执行结果写入记忆，并继续推进后续任务。

这套设计解决了一个常见问题：许多 Agent 系统直接从用户任务跳到执行，中间缺少“组织设计”和“计划审查”。AutoAgents 把这个中间层显式化了。Rocky 认为，这一点非常关键，因为复杂任务的失败往往发生在执行之前：角色不对、计划不全、依赖关系不清，后面再努力也只能局部补救。

Drafting Stage：先生成团队，再生成计划

Drafting Stage 的目标，是为当前任务生成合适的 Agent 团队和执行计划。论文设计了三个预定义角色。

Planner 负责根据任务内容生成并改进 Agent team 和 execution plan。Agent Observer 负责检查 Agent 团队成员是否合理、是否匹配任务、是否缺少必要元素。Plan Observer 负责检查执行计划是否合理、是否匹配任务和团队、是否存在步骤遗漏。

每个生成 Agent 被表示为：

A = { P , D , T , S } \mathcal{A}=\{\mathrm{P},\mathrm{D},\mathrm{T},\mathrm{S}\}A={P,D,T,S}

其中P \mathrm{P}P是 prompt，定义角色 profile、goal、constraints；D \mathrm{D}D是 description，用于补充角色身份和职责；T \mathrm{T}T是 toolset，从预定义工具集中选择；S \mathrm{S}S是 suggestions，用于指导 Agent 执行当前任务。

这个表示看似简单，但非常有工程价值。它把 Agent 从一句“你是某某专家”扩展成一个更完整的执行单元：身份、职责、工具、建议都被结构化描述。这样 Agent Observer 才能检查它是否缺字段、是否冗余、是否不匹配任务。

Plan Generation 与 Agent Generation 并行进行。Planner 生成执行计划：

P = { S 1 , S 2 , ⋯ , S n } P=\{\mathcal{S}_1,\mathcal{S}_2,\cdots,\mathcal{S}_n\}P={S1,S2,⋯,Sn}

每个步骤S i \mathcal{S}_iSi都需要指定负责 Agent、输入信息和预期输出。Plan Observer 会检查每一步是否有对应 Agent，步骤是否足够完成任务，输入输出是否前后连贯。

Rocky 认为，AutoAgents 在这里的本质贡献是把“角色生成”和“计划生成”绑定起来。很多多 Agent 系统容易出现两种问题：要么角色很丰富但没人知道谁该做什么，要么计划很详细但没有合适角色负责。AutoAgents 要求每个步骤都能落到 Agent，每个 Agent 又要为任务服务。

两类执行动作：单体自我修正与多体协同修正

AutoAgents 在任务执行中定义了两类动作：self-refinement 和 collaborative refinement。

图 3 展示了两种动作的区别。Self-refinement 是单个 Agent 对自己的输出进行思考、计划、执行和反馈修正，适合专业任务内部的迭代改进。Collaborative refinement 是多个 Agent 通过对话交换知识、整合观点，适合需要跨领域知识融合的任务。

论文把单 Agent 在第t tt步的动作表示为：

a t = l t ∪ p t ∪ o t a_t=l_t \cup p_t \cup o_tat=lt∪pt∪ot

其中l t l_tlt是 thought 或 reasoning trace，代表语言空间里的中间推理；p t p_tpt是执行计划；o t o_tot是执行步骤和输出。这个公式的意义不在数学复杂性，而在于它把一个 Agent 的行动拆成三个层面：想法、计划、结果。

Self-refinement 的价值在于让单个专家角色做深。例如程序员 Agent 先写伪代码，再生成程序文件，再根据反馈修正。这种机制对代码、数学、写作等需要多轮打磨的任务有帮助。

Collaborative refinement 的价值在于让多个专家做横向整合。例如写故事时，事实专家、语言专家、情节专家需要交换意见，确保故事既包含正确答案，又保持叙事连贯。对于复杂任务来说，单个 Agent 再强，也很难同时覆盖所有专业视角。

这里有一个很重要的工程判断：多 Agent 协作不是 Agent 越多越好，而是要区分什么时候适合单体深挖，什么时候需要多人协同。AutoAgents 通过 Drafting Stage 生成计划，把这两类动作嵌入不同步骤，这是它比纯对话式多 Agent 更稳定的地方。

Execution Stage：Action Observer 与三层记忆

进入 Execution Stage 后，系统不再只是让生成 Agent 轮流说话，而是引入 Action Observer 作为团队执行经理。Action Observer 负责为不同 Agent 分配任务，验证每个 Agent 的执行结果，根据执行状态动态调整计划，并协调团队达成一致。

论文采用 vertical communication paradigm，即根据角色分配不同任务，由 Action Observer 组织执行。对于软件开发这类目标明确、步骤较长的任务，垂直协调通常比无组织的平等讨论更适合。否则多个 Agent 很容易在同一层面反复争论，无法推进任务。

AutoAgents 还设计了三层知识共享机制。

图 4 展示了 long-term memory、short-term memory、dynamic memory 的区别。

Short-term memory 记录单个 action 内部的中间思路、计划和结果，尤其是 self-refinement 或 collaborative refinement 的历史。它解决的是当前动作内部“刚刚发生了什么”。

Long-term memory 记录多个 action 的历史轨迹，尤其是每个任务步骤的执行结果和关键反馈。它解决的是整个任务进程“已经完成了什么”。

Dynamic memory 由 Action Observer 从 long-term memory 中抽取当前动作需要的关键信息。它解决的是“当前 Agent 此刻最需要知道什么”。这比把全部历史塞给每个 Agent 更现实，因为上下文窗口有限，且过多无关信息会干扰决策。

Rocky 认为，这个三层记忆设计非常接近真实 Agent 工程中的状态管理问题。长期记忆不能简单等于聊天记录，短期记忆不能无限膨胀，动态记忆必须和当前动作绑定。真正难的不是“保存”，而是“选择性恢复”。

论文给出的算法流程可以概括为：

初始化 Planner、Agent Observer、Plan Observer。
Planner 生成初始 Agent team 和 execution plan。
Agent Observer 和 Plan Observer 反复反馈，Planner 修正团队与计划。
进入 Execution Stage，初始化 Action Observer 和 long-term memory。
对每个计划步骤，Action Observer 生成 dynamic memory，分配任务给对应 Agent。
Agent 基于短期记忆和动态记忆执行 self-refinement 或 collaborative refinement。
执行结果进入 long-term memory，Action Observer 继续协调下一步。

这套流程的关键是，AutoAgents 把 Agent 生成、计划生成、任务执行、记忆更新、结果交付串成了一个闭环，而不是停留在“多个角色互相聊天”的层面。

实验与证据：结果能支撑到什么程度

论文主要用两个定量任务和一个软件工程案例来验证 AutoAgents：Open-ended Question Answer、Trivia Creative Writing，以及 Tetris 软件开发案例。实验均使用 GPT-4 API，温度设为 0。Drafting 阶段最大讨论轮数为 3，执行阶段单 Agent self-refinement 和多 Agent collaborative refinement 最大轮数为 5。

Open-ended Question Answer：开放问答中的胜率

开放问答任务使用 MT-bench 中的 80 个高质量开放问题，比较 AutoAgents 与 Vicuna-13B、ChatGPT、GPT-4 的回答质量。评估包括 FairEval 和人工评估。

Evaluator	vs ChatGPT	vs Vicuna-13B	vs GPT-4
FairEval	96.3%	96.3%	76.3%
HumanEval	75%	75%	62.5%

表 2 显示，AutoAgents 在 FairEval 和人工评估下都相对单模型有较高胜率，甚至相对 GPT-4 也取得 76.3% 的 FairEval 胜率和 62.5% 的人工评估胜率。

这个结果可以支持一个判断：在开放问答这种需要多视角组织信息的任务上，动态生成专家团队和协作回答，可能比单次模型回答更细致、更全面。

但也要注意，FairEval 仍然是 LLM-based evaluator，可能存在偏差；人工评估样本规模和评价标准也会影响结论。因此，这个结果更适合被理解为“AutoAgents 在开放回答质量上有明显信号”，而不是证明它在所有开放问答中稳定优于 GPT-4。

Trivia Creative Writing：知识整合与创作一致性

Trivia Creative Writing 要求模型围绕给定主题写一个连贯故事，并且把N NN个 trivia questions 的答案融入故事。论文评估N = 5 N=5N=5和N = 10 N=10N=10两种设置，每个设置 100 个实例，共 1000 个 trivia questions。

Methods	N=5 Score	N=5 Δ	N=10 Score	N=10 Δ
Standard	74.6	0.0%	77.0	0.0%
CoT	67.1	-10.0%	68.5	-11.1%
SPP-Profile	79.1	+5.9%	83.0	+7.8%
SPP	79.9	+7.1%	84.7	+10.0%
AutoAgents	82.0	+9.9%	85.3	+10.8%

表 3 显示，AutoAgents 在两个设置下都优于 Standard、CoT、SPP-Profile 和 SPP。尤其值得注意的是，CoT 反而低于 Standard，说明在这个任务里，单纯让模型“多思考”并不一定提升知识整合能力。AutoAgents 的优势来自更细颗粒度的角色分工、信息检索式组织和协同修正。

论文使用的自动指标是：生成故事中正确出现 trivia question 目标答案的比例。这个指标能衡量“是否把答案融入文本”，但不能完全衡量故事质量、自然性和事实上下文。因此它对知识覆盖有效，对创作质量只能部分反映。

消融实验：观察者、自我修正、协同修正、动态记忆的作用

论文在 Trivia Creative Writing 的 20 个实例上做了消融实验。

Methods	Score	Δ vs Standard
Standard	74.6	0.0%
CoT	66.0	-11.5%
SPP-Profile	74.0	-0.01%
SPP	84.4	+13.1%
AutoAgents w/o observers	87.0	+16.6%
AutoAgents w/o self-refinement	87.0	+16.6%
AutoAgents w/o collaborative refinement	88.0	+18.0%
AutoAgents w/o dynamic memory	89.0	+19.3%
AutoAgents	90.0	+20.6%

表 4 说明，完整 AutoAgents 得分最高。去掉 observers 或 self-refinement 后下降约 3 分，去掉 collaborative refinement 后下降约 2 分，去掉 dynamic memory 后下降约 1 分。

这个消融结果很有意思，因为它说明 AutoAgents 的性能不是只靠“多几个 Agent”获得的。观察者机制、单体自我修正、多体协作修正、动态记忆都在贡献增益，只是贡献大小不同。

图 5 用 Tetris 软件开发任务展示了观察者机制的作用。没有 Observer 反馈时，Planner 容易只生成 programmer 角色，忽略游戏设计、UI、测试等完整软件开发过程。有 Observer 反馈后，Agent 团队更接近真实项目中的分工。这说明“动态生成角色”本身还不够，角色生成也需要被审查。

软件工程案例：从写代码到构建小型开发团队

论文还展示了一个 Tetris 游戏开发案例。AutoAgents 为该任务生成游戏设计专家、UI 设计专家、程序员、调试专家等角色，分别产出游戏逻辑文档、UI 组件设计、程序实现和调试测试结果。

图 6 表明，AutoAgents 在软件开发任务中更像是自动组织一个小型团队，而不是让单个模型直接写完整代码。这个思路和 MetaGPT 等软件工程 Agent 有共通之处，但 AutoAgents 更强调团队角色由任务动态生成，而不是固定为产品经理、架构师、工程师、测试等预设岗位。

从证据强度看，这个案例主要展示可行性和流程形态，不足以证明 AutoAgents 在软件工程中系统性优于其他框架。真正要证明软件工程效果，还需要更多任务、可运行率、测试通过率、代码质量、人类评审等指标。

附录案例：自我修正、协同修正和动态 Agent 的可视化证据

论文附录提供了更多过程案例，用来展示框架内部组件如何工作。

图 7 展示程序员 Agent 先写伪代码文件，再生成对应程序文件的过程。它说明 self-refinement 在代码类任务中可以把粗粒度想法逐步落成更具体产物。

图 8 展示多个 Agent 如何在创意写作任务中交换意见、保证故事一致性。它说明 collaborative refinement 更适合跨领域信息整合，而不是单个 Agent 闭门修正。

图 9 展示开放问答中 AutoAgents 相比 GPT-4 可以生成来自不同领域的 Agent，从多视角回答问题。这个案例直观支持论文的主张：动态角色能带来更丰富的回答结构。

图 10 和图 11 展示 AutoAgents 如何把 trivia answers 融入故事生成。论文强调，AutoAgents 通常会先用领域 Agent 找出答案，再构造叙事，并由语言专家检查叙事与答案的一致性。

图 12 展示 Action Observer 如何协调多个生成 Agent，并提取关键信息促进任务推进。它支撑了论文对 Action Observer 的定位：不是普通回答者，而是执行阶段的协调器。

这篇工作的边界与可复现性

AutoAgents 的设计很有启发，但边界也需要看清楚。

首先，论文的性能主要建立在 GPT-4-0613 上。作者也承认，AutoAgents 目前比较依赖强模型的逻辑和文本能力，对早期或较弱 LLM 的适配性较差。这意味着框架能力不是完全独立于基础模型的。动态组队可以放大模型能力，但不能凭空创造稳定推理能力。

其次，动态角色生成本身也可能出错。Planner 可能生成不合理角色，Observer 也可能漏检。虽然论文用 Agent Observer 和 Plan Observer 提升稳定性，但它们本质上仍由 LLM 驱动，仍可能出现误判。对于高风险任务，仅靠模型自检和多 Agent 讨论是不够的。

第三，实验任务具有一定代表性，但还不足以覆盖复杂现实任务。Open-ended QA 和 Trivia Creative Writing 适合验证多视角回答与知识整合，Tetris 案例适合展示软件工程流程，但还不能证明 AutoAgents 在企业级代码、科研证明、长周期项目管理等场景中稳定可靠。

第四，评价指标存在局限。Trivia Creative Writing 的字符串匹配指标可以衡量答案是否出现，但不能完整衡量叙事质量。FairEval 虽然缓解 LLM 评价偏差，但仍属于模型评估模型。论文提供人工评估，但规模和细节仍有进一步扩展空间。

第五，AutoAgents 的 prompt 和附录非常长，实际运行成本、延迟、上下文消耗都不可忽视。动态生成团队、观察者多轮反馈、执行阶段多轮修正，会显著增加 token 成本和系统复杂度。工程落地时必须在质量增益和成本之间权衡。

最后，论文源代码仓库公开在https://github.com/Link-AGI/AutoAgents，这有助于复现框架思路。但完整复现仍依赖模型 API、Prompt 配置、评测数据、运行参数和人工评估流程。对于严肃科研复现，还需要进一步核对版本、随机性、评估脚本和样本选择。

如果继续研究/落地，应该关注什么

Rocky 认为，AutoAgents 后续最值得继续研究的不是“生成更多角色”，而是五个更硬的问题。

第一，角色生成需要从语言合理性走向能力验证。现在的 Agent 角色主要由 prompt 定义，角色是否真有能力完成任务，更多依赖基础模型泛化能力。未来更强的系统应该能够验证角色能力，比如通过小测试、工具调用记录、历史成功率或专业知识库绑定来判断这个 Agent 是否真的胜任。

第二，计划生成需要从自然语言步骤走向可执行工作流。AutoAgents 的计划仍以语言描述为主。对于软件开发、科学实验、Lean4 证明、企业流程自动化等长任务，计划最好能转成 DAG、状态机、任务队列或可回滚 workflow，这样系统才能检查依赖、并行执行、失败重试和验收条件。

第三，Observer 机制需要外部事实和规则支撑。Agent Observer、Plan Observer、Action Observer 都很有价值，但如果它们只依赖同一个 LLM 的判断，容易形成“模型互相安慰”。更可靠的做法是让 Observer 接入工具、测试、静态分析、检索证据、形式化约束和人类审批。

第四，记忆机制需要走向可治理。AutoAgents 的三层记忆方向正确，但真实系统还要处理记忆过期、错误记忆污染、权限隔离、来源可信度、跨任务迁移和隐私保护。特别是长耗时任务里，长期记忆如果没有结构化治理，会慢慢变成噪声仓库。

第五，成本和稳定性必须成为系统指标。多 Agent 框架天然更贵、更慢、更难调试。一个好的自动组队系统，不能只追求回答质量，还要记录 token 消耗、调用次数、失败率、平均完成时间、人类介入次数和可恢复性。

对 Lean4 Agent、复杂证明、长耗时自动化任务这类方向来说，AutoAgents 的启发尤其明显。证明任务通常需要角色分工：定理理解、相关引理检索、证明草图规划、Lean 代码生成、错误诊断、局部修复、全局压缩、最终审稿。真正难的不是让一个模型反复尝试，而是让这些能力形成稳定流程。AutoAgents 的“动态组队 + 观察者校验 + 多层记忆”可以作为一个参考架构，但必须引入 Lean 编译器反馈、本地 mathlib 检索、定理依赖图和长期证明轨迹管理，才能变成可用的证明系统。

术语与概念速查

概念	论文中的含义	Rocky 视角下的本质
AutoAgents	自动生成并协调多 Agent 团队的框架	根据任务动态组织 AI 团队
Drafting Stage	生成 Agent 团队和执行计划的阶段	执行前的组织设计与计划审查
Execution Stage	动态团队执行任务并修正结果的阶段	从计划到交付的协作闭环
Planner	生成角色和计划的预定义 Agent	团队架构师与任务规划者
Agent Observer	检查角色合理性的观察者	组织结构审查者
Plan Observer	检查计划合理性的观察者	工作流审查者
Action Observer	执行阶段的协调者	项目经理/调度器
Self-refinement	单个 Agent 自我评估和迭代改进	专家内部深度打磨
Collaborative refinement	多个 Agent 协作交换意见并修正	跨专业知识融合
Short-term memory	单个 action 内部历史	当前步骤工作缓存
Long-term memory	多 action 执行轨迹	全局任务状态
Dynamic memory	从长期记忆中抽取当前动作所需信息	面向当前任务的上下文恢复
Agent Bank	论文未来工作中提到的专业 Agent 调用池	可复用专家能力市场

拓展思考：值得继续扩展研究与思考的创新点

AutoAgents 这篇论文真正有价值的地方，是把 Agent 的讨论从“单体能力”推到了“组织能力”。过去我们常说模型能力、工具调用、记忆系统，但复杂任务真正落地时，最容易被低估的是组织结构：谁负责拆任务，谁负责检查角色，谁负责检查计划，谁负责协调执行，谁负责记忆压缩，谁负责最终验收。

Rocky 认为，这种“组织工程”会成为下一阶段 Agent 系统的重要分水岭。单 Agent 很像一个能力很强但容易疲劳的全能实习生，多 Agent 系统则像一个临时项目组。如果项目组没有项目经理、没有验收标准、没有会议纪要、没有任务依赖、没有回滚机制，人越多越乱。AutoAgents 的意义就在于，它开始把这些组织机制显式放进 Agent 架构里。

但也要保持清醒。动态组队不等于动态能力，多个 Agent 讨论不等于真理更接近。很多时候，多 Agent 只是让同一个基础模型在多个 Prompt 下产生不同视角。它确实能提升覆盖度和鲁棒性，但不能替代外部验证、专业工具和真实环境反馈。

因此，这篇论文对产业落地最重要的启发不是“马上套一个 AutoAgents 框架”，而是把复杂任务拆成三层问题：

第一，任务需要什么角色；
第二，角色之间如何协作；
第三，协作过程如何被验证和记忆。

对于 AI Agent 创业和产品研发来说，真正的护城河也许不在“我有多少个 Agent”，而在“我能否为某类高价值任务沉淀出稳定的角色体系、工具协议、数据记忆和验收闭环”。工具会迭代，模型会升级，框架会更替，但对复杂任务的组织理解会留下。

最后回到 AutoAgents 本身。它不是终点，但它抓住了一个关键方向：当 Agent 从回答问题走向完成任务，从单次生成走向长程协作，从通用聊天走向复杂工作流，系统必须学会自动组织一支合适的团队。Agent 的下一步，不只是更聪明的大脑，而是更可靠的组织。

参考资料

Guangyao Chen et al. AutoAgents: A Framework for Automatic Agent Generation. IJCAI 2024.
Link-AGI. AutoAgents GitHub Repository.
Qingyun Wu et al. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. 2023.
Sirui Hong et al. MetaGPT: Meta Programming for Multi-Agent Collaborative Framework. 2023.
Weize Chen et al. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. 2023.
Zhenhailong Wang et al. Unleashing Cognitive Synergy in Large Language Models. 2023.

写在前面

核心导读

问题背景：作者到底想解决什么

核心思路：用一句主线串起来

方法展开：沿着论文原始逻辑拆解

总体框架：从用户任务到动态 AI 团队

两阶段机制：Drafting Stage 与 Execution Stage

Drafting Stage：先生成团队，再生成计划

两类执行动作：单体自我修正与多体协同修正

Execution Stage：Action Observer 与三层记忆

实验与证据：结果能支撑到什么程度

Open-ended Question Answer：开放问答中的胜率

Trivia Creative Writing：知识整合与创作一致性

消融实验：观察者、自我修正、协同修正、动态记忆的作用

软件工程案例：从写代码到构建小型开发团队

附录案例：自我修正、协同修正和动态 Agent 的可视化证据

这篇工作的边界与可复现性

如果继续研究/落地，应该关注什么

术语与概念速查

拓展思考：值得继续扩展研究与思考的创新点

参考资料

推荐阅读

1. 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识

3. 深入浅出完整解析FLUX.2、Seedream（即梦）、Z-image、GLM-Image核心基础知识

4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识

5. 深入浅出完整解析DeepSeek系列核心基础知识

6、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

8、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

9、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

10、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

11、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

12、深入浅出完整解析AIGC时代Transformer核心基础知识

13、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

16、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

17. AI算法工程师的《三年面试五年模拟》求职秘籍

18. AIGC产业的深度思考与分析

WSEN-ISDS与PIC18F56K42实现高精度三维运动跟踪方案

ICM-42605与PIC32MZ实现高精度运动追踪方案

数据分析全栈实战：Excel、Python、SQL、BI工具25集免费教程

OpenAI-compatible API 成本控制实践：Claude、GPT、Gemini 如何按预算路由

适合新手编程的软件（非常详细），零基础入门到精通，看这一篇就够了

AI生图体验的最后一公里：从生成到保存，为什么总是卡在这一步？