news 2025/12/27 10:21:32

性能屠夫来了!王梦迪团队新作开源,多智能体协作直接“抄近道”,成本和速度双双颠覆!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
性能屠夫来了!王梦迪团队新作开源,多智能体协作直接“抄近道”,成本和速度双双颠覆!

模型协作正成为Agentic AI时代系统级智能的基石。多智能体系统(Multi-Agent Systems, MAS)的快速发展推动了范式转变——从以单一模型为中心的孤立推理转向多个交互式模型之间的协同合作。

在基于大语言模型(LLM)的多智能体系统中,自然语言文本通常充当“通用语言”,既承载各智能体的内部思维,也作为跨智能体通信的核心媒介。除了显式的文本通信外,近期研究开始探索将LLM的连续潜在空间作为一种新型“模型语言”,具体方式包括:(1)利用Transformer内部的隐藏表征,实现单模型内部潜在思维链推理(latent chain-of-thought);(2)采用KV caches或layer embeddings实现两个模型间信息交换。然而,目前缺乏统一整合潜在推理与潜在通信的完整模型协作框架。由此引出一个关键问题:多智能体系统能否实现纯粹基于潜在空间的协作?

为此,普林斯顿大学联合伊利诺伊大学厄巴纳-香槟分校、斯坦福大学的研究者们提出一种无需训练的端到端框架LatentMAS,使大语言模型智能体能够实现纯潜在空间协作。在LatentMAS中,每个智能体先通过最后一层的隐藏嵌入自回归地生成潜在思维。随后,通过共享的潜在工作记忆机制以实现无损信息保存与交换。在大量基准测试中,LatentMAS 始终优于强大的单模型基线和基于文本的MAS方法,准确率最高提升14.6%,输出token 使用量减少70.8%–83.7%,端到端推理速度提升达4倍至4.3倍。

  • 论文标题:

    Latent Collaboration in Multi-Agent Systems

  • 论文链接:
    https://arxiv.org/pdf/2511.20639

  • 项目链接:

    https://github.com/Gen-Verse/LatentMAS

01方法

如图3所示,LatentMAS是一种端到端的潜在空间协作框架。该框架处理问题时所有智能体的推理与通信都在潜在空间内完成,仅需将最终答案解码为文本。该框架使系统中的LLM智能体能够实现以下目标:

  • 在潜在空间内执行高表达力的思维生成;
  • 在多轮交互过程中以无损保真度保存并传递各智能体的潜在工作记忆;
  • 在保持同等表达能力的同时,实现显著低于传统基于文本的多智能体系统的计算复杂度

(1)智能体的自回归潜在空间思维生成

给定问题 q 以及每个智能体指令提示信息的输入嵌入E=[e1,e2,…,eL],每个LLM智能体Ai∈A 将E通过L层Transformer计算当前步骤t的最后一层隐藏表征ht。随后,将ht作为下一步t+1的输入嵌入,替代标准文本生成中使用的原始解码和下一个token嵌入过程。通过自****回归方式重复该过程,经过m步潜在空间推理,得到新生成的最后一层隐藏状态序列 H=[ht+1,ht+2,…,ht+m]。研究团队将连续输出表示H定义为由智能体Ai生成的潜在思维(latent thoughts)。

由于新生成的H是一组密集的高层级表征序列,若直接将其插入浅层网络作为输入嵌入可能会导致分布外激活,因为这些隐藏状态与已学习的token嵌入的统计模式存在差异。为了在不额外训练的情况下缓解这一问题,研究团队提出一种线性对齐算子(linear alignment operator),将最后一层隐藏状态映射回有效的输入嵌入空间。其中,给定Win和Wout分别为智能体Ai的输入和输出嵌入层,寻求一个投影矩阵,将每个输出向量 h∈H 映射为一个新的输入向量e,使其与Win定义的有效输入空间对齐:

其中,的伪逆矩阵。随后,研究团队将对齐后的向量e追加到输入序列,以进行自回归潜在空间生成。需要注意的是,Wa 是一个维度为 dh×dh 的小型投影矩阵(例如Qwen3-0.6B模型的dh为1024),仅需计算一次就能在后续的潜在空间步骤中复用。该设计使得对齐操作的计算开销可忽略不计,同时保持了潜在空间表征与离散表征分布一致

研究团队通过以下定理形式化地表明,潜在思维由于天然保留了更丰富的语义结构,相比基于离散文本的推理其表达能力更强。

(2)工作记忆保存与智能体间思维传递

基于文本的多智能体系统中,当LLM智能体生成执行完,其自然语言输出会直接追加到下一个智能体的输入序列。而在LatentMAS中,每个智能体通过隐藏状态进行推理并不产生显式的文本输出。为此,研究团队设计了一种新的潜在工作记忆传递机制,以实现无损信息保存与交换

以LatentMAS中两个连续的智能体 A1,A2∈A 为例描述该传递机制。如图3所示,智能体 A1 首先执行m步潜在空间生成,完成这些步骤后,一次性提取A1中所有Transformer层的KV缓存,并将其潜在工作记忆定义为:

分别表示第l层累积的key和value矩阵。与现有仅在预填充输入上下文,以进行模型间信息交换的缓存共享方法不同,中的逐层缓存不仅包含初始输入的上下文信息,还封装了智能体A1新生成的潜在思维。

接着,后续智能体将整合来自的工作记忆。在生成潜在思维(即最后一层隐藏状态)之前,将的前置添加到上执行逐层拼接,以更新KV缓存。通过这种方式,的新潜在思维生成过程将同时依赖前一个智能体的工作记忆和其自身的内部表征。

潜在工作记忆传递机制能够确保LatentMAS中的后续智能体无缝接收前一个智能体的完整输出,而无需重新编码。以下定理形式化地表明了这一性质,表明潜在工作记忆传递在信息保真度上等价于显式的输入交换。

此外,为了实现无损信息保留的同时避免后续智能体出现冗余的重复计算,研究团队选择以KV缓存的形式传递潜在工作记忆,而非直接传输隐藏状态

(3)端到端流程计算复杂度分析

对于LatentMAS中其余的智能体,遵循上述相同的潜在思维生成与工作记忆传递机制。其中,智能体从前一个智能体继承其工作记忆,随后执行自回归的最终层隐藏状态生成,并将更新后的潜在工作记忆传递给下一个智能体。该过程 LatentMAS的所有智能体之间依次进行,只有最后一个智能体需要负责解码并输出最终答案。以下定理形式化地表明,在保持同等表达能力的同时**,LatentMAS的计算复杂度远低于基于文本的多智能体系统**。此外,LatentMAS与具体模型协作策略无关**,**可无缝应用于顺序型、层级型或其他高级多智能体系统架构

02评估

表1、表2和表3展示了基于3种不同规模LLM主干构建的LatentMAS,在9个通用且推理密集型基准上的整体性能。为全面考察推理过程中的协作行为,研究团队从3个互补维度对各方法进行评估:(i) 任务准确率,(ii) 系统吞吐量(总输出 token 数),以及 (iii) 端到端推理速度。

在所有任务上,LatentMAS 相较于单模型基线,在顺序(Sequential)与层级(Hierarchical)架构下准确率平均提升14.6%、13.3%,与TextMAS相比,准确率平均提升2.8%与4.6%。在相同多智能体架构下,LatentMAS相较于顺序与层级的TextMAS实现推理速度快4倍与4.3倍。此外,由于整个协作过程完全在潜在空间进行,LatentMAS相比TextMAS,在顺序与层级架构下显著减少了70.8%和83.7%的token使用量。

LatentMAS与TextMAS效率分析如图1和图4(左)所示。LatentMAS比经vLLM优化的 TextMAS快2.6倍至7倍。这一提升源于:生成潜在思维所需的潜在空间推理步数远少于基于token的文本生成所需的解码步数。例如,在 AIME 24/25 等高难度推理任务上,LatentMAS 仅需不到50个潜空间推理步骤即可达到与TextMAS相当甚至更优的性能,而TextMAS通常需要生成超过20K个输出 token才能完成完整的文本思维链(CoT)推理。

如图1和图4(右)所示,LatentMAS相较于 TextMAS将token使用量减少了59.4%–87.9%。这是因为LatentMAS中的智能体直接将潜在工作记忆传递至另一智能体的内部网络层进行通信,而不依赖文本媒介。此外,LatentMAS甚至比单智能体系统也减少了15.0%–60.3%的token使用量。与单模型推理相比,LatentMAS将输入问题分发给多个协作智能体处理,最终智能体主要负责聚合先前生成的潜在思维,仅用少量 token 解码最终答案。因此,整个系统在生成更少输出token的同时,反而实现了更高的准确率。

为了验证 LatentMAS 中生成的潜在思维是否产生有意义且语义表达丰富的表征。研究团队将 LatentMAS 新生成的最后一层嵌入分布,与 TextMAS 逐 token 生成的回答所对应的 token 嵌入分布进行比较。实验在 300 道 MedQA 问题上进行,LatentMAS 使用 40 个潜在空间推理步骤,而 TextMAS 基线最多允许生成 4096 个 token。如图 5 所示,可以发现:

(i) LatentMAS 的最后一层嵌入与 TextMAS 的 token 嵌入几乎共享相同的嵌入空间区域,表明潜在思维编码了与正确文本回答相似的语义信息;

(ii) LatentMAS 的最后一层嵌入在分布上很大程度覆盖了 TextMAS 的 token 嵌入的分布范围,说明潜在思维相比离散 token 具有更高的多样性与更强的表达能力。

这些结果表明,潜在思维不仅捕捉到了对应文本回答的有效语义,还在内部编码了更丰富、更具表达力的表征

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/25 16:53:27

团队规模对管理方式的影响

团队规模是决定管理方式和组织效能的核心变量。随着团队规模的扩张,管理方式必须经历从非正式到正式、从“人治”到“法治”、从集中式管控到“去中心化”赋能的系统性转变。 一个5人团队的“游击队”式管理,依赖的是成员间的默契和高频的当面沟通&#…

作者头像 李华
网站建设 2025/12/26 7:10:24

限时掌握!生物医学研究中的甲基化差异分析黄金模板(R语言版)

第一章:甲基化差异分析的背景与意义DNA甲基化是一种重要的表观遗传修饰,广泛参与基因表达调控、细胞分化以及疾病发生发展过程。在哺乳动物中,甲基化通常发生在CpG二核苷酸中的胞嘧啶上,形成5-甲基胞嘧啶(5mC&#xff…

作者头像 李华
网站建设 2025/12/26 5:25:19

[Web自动化] CSS基础概念和介绍

4.1 CSS基础概念和介绍 4.1.1 CSS的基本概念 CSS,全称Cascading Style Sheets(层叠样式表),是一种用来表现HTML或XML(包括各种XML方言如SVG、XHTML或XML用于已经建立的一些如MathML或RDF的应用)等文件样式…

作者头像 李华
网站建设 2025/12/26 4:20:23

数据仓库系统建设:数据采集、预处理与集成

采集的原则要求数仓作为“面向分析的集成化数据环境”,其数据采集并非简单的“数据搬运”,需满足以下要求:主题关联性:采集的数据必须与数仓主题匹配(如用户主题需关联用户行为、基本信息数据),…

作者头像 李华
网站建设 2025/12/26 0:48:56

Eruda:移动端网页调试利器

在移动互联网时代,移动端网页开发的需求日益增长。然而,与桌面端开发不同,移动端网页的调试面临着诸多挑战。由于移动设备的屏幕尺寸、操作系统和浏览器环境的多样性,传统的桌面端调试工具难以直接应用于移动端。Eruda作为一款轻量…

作者头像 李华