news 2026/6/10 17:45:40

Multi-Agent执行链路的可观测性:端到端追踪与依赖分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Multi-Agent执行链路的可观测性:端到端追踪与依赖分析

Multi-Agent执行链路的可观测性:端到端追踪与依赖分析

作者:15年经验资深软件架构师 | 前大厂AI平台技术负责人
本文适合人群:中级/高级AI应用开发者、多智能体系统架构师、LLM应用运维工程师


开篇:我们正站在「多智能体可观测性的蛮荒时代」

去年我带领团队落地企业级多Agent客服平台的时候,踩过一个至今难忘的坑:上线第一周就有近30%的用户投诉「退款申请提交后没有反馈」,但我们翻遍了所有服务日志、LLM调用记录、数据库操作记录,根本找不到问题根因——你不知道是路由Agent把用户请求分错了角色,还是售后Agent调用订单查询工具时参数传错了,或是LLM推理时误判了退款条件,甚至可能是通知Agent生成的消息内容触发了风控拦截被静默丢弃。

这个问题我们花了整整72小时才定位到:售后Agent从记忆模块读取用户订单ID时,误把「订单编号」的字符串值当成了整数ID传给了工具,导致查询返回空值,但LLM没有捕获到这个错误,直接生成了「退款已受理」的回复,却跳过了后续的退款和通知流程。

这不是个例,随着2024年多智能体系统的大规模落地,我们正在重演2015年微服务刚兴起时遇到的「可观测性灾难」:传统的日志、监控、链路追踪方案完全适配不了多Agent系统的动态性、异构性、语义复杂性。今天这篇文章,我会结合过去2年在多Agent可观测性领域的实践经验,从核心概念、原理、实战、趋势四个维度,完整拆解Multi-Agent执行链路的可观测性建设方案。


一、核心概念与边界定义

1.1 基础概念定义

什么是Multi-Agent执行链路?

多智能体执行链路指的是从用户发起任务请求,到多个Agent之间协作、调用工具、访问LLM、更新状态、最终返回任务结果的完整执行路径,包含5类核心执行单元:

  • Agent内部推理执行(含记忆读写、规划决策)
  • Agent之间的消息传递
  • LLM/多模态模型调用
  • 外部工具/API/数据库调用
  • 人类干预/反馈交互
什么是Multi-Agent可观测性?

多智能体可观测性是传统可观测性三大支柱(日志、指标、链路追踪)在多Agent场景下的扩展,核心目标是不修改系统代码的前提下,通过外部采集的数据分析系统内部状态,快速定位问题、分析依赖、优化性能,它比传统可观测性多了两个核心维度:语义可观测性(判断Agent执行逻辑是否符合预期)、动态依赖可观测性(分析Agent之间动态变化的调用关系)。

1.2 边界与外延

对比维度Multi-Agent可观测性传统微服务APM单LLM应用可观测性
追踪对象Agent、工具、LLM、消息、人类反馈服务实例、接口、数据库LLM调用、Prompt、输出
依赖特性动态生成(由Agent决策决定)静态预定义(代码里写死)固定(单Agent的调用链)
数据维度技术指标+语义数据+状态数据技术指标(延迟、错误率、吞吐量)语义数据+Token指标
故障类型代码错误+推理错误+逻辑错误+配置错误代码错误+配置错误+基础设施错误推理错误+参数错误
排查粒度任务级(全链路上下文回溯)接口级(单个请求的链路)调用级(单次LLM请求)
采样策略错误全采+语义采样(低质量结果全采)百分比采样+错误采样调用级采样

边界说明:Multi-Agent可观测性不覆盖底层基础设施(服务器、K8s、网络)的可观测性,但可以和基础设施可观测体系打通,实现从底层硬件到上层Agent逻辑的全栈可观测。
外延说明:可观测数据可以进一步用于成本优化(Token消耗分析)、合规审计(Agent行为溯源)、自治愈(根因自动定位并修复)。

1.3 核心实体与关系模型

我们扩展了OpenTelemetry的Trace/Span模型,定义了多Agent可观测性的核心实体,ER图如下:

包含

包含

包含

Trace

string

trace_id

PK

全局唯一链路ID

string

task_id

用户任务ID

string

user_id

发起任务的用户ID

timestamp

start_time

链路开始时间

timestamp

end_time

链路结束时间

enum

status

成功/失败/处理中

int

total_token

全链路总Token消耗

float

total_latency

全链路总延迟

<
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:45:20

传统KTV满足这5条,就该改成自助KTV了

KTV 自查清单传统KTV满足这5条就该改成自助KTV了很多传统KTV老板来问我们的第一句话都是&#xff1a;"我这个店&#xff0c;能改吗&#xff1f;"能不能改&#xff0c;不看地段&#xff0c;不看装修&#xff0c;不看你开了多少年。就看这5条。01包厢在6间以上6间以上的…

作者头像 李华
网站建设 2026/6/10 17:42:16

影刀RPA实操指南_1688商品数据自动化采集

影刀RPA实操指南&#xff1a;1688商品数据自动化采集完整流程——源头供应链数据才是核心资产 做过电商的都知道一句话&#xff1a;得供应链者得天下。 1688&#xff08;阿里巴巴中国站&#xff09;是源头货源地。在这里挖掘的数据&#xff0c;直接关系到你能拿到什么价格、什…

作者头像 李华
网站建设 2026/6/10 17:37:13

Java基础——面向对象的特征

面向对象有哪些特征&#xff1f;封装、抽象、继承、多态1.封装封装就是指隐藏对象的属性和实现细节&#xff0c;将对象的数据、属性、行为、方法等组合到一个单一的单元中&#xff0c;并通过访问修饰符控制成员属性的访问和修改权限&#xff0c;再通过特定公开的方法&#xff0…

作者头像 李华
网站建设 2026/6/10 17:37:12

Codex 不再只是写代码:开发者要判断它是否真正融入工作流

这两天讨论 AI 编程工具的技术圈&#xff0c;比单纯的性能排行榜更热的一个话题&#xff0c;是 OpenAI 将 Codex 从写代码的助手&#xff0c;演进成面向各种工作自动化的平台&#xff0c;并推出了针对业务角色的插件&#xff0c;让它能处理数据分析、报告、表格、销售流程、产品…

作者头像 李华
网站建设 2026/6/10 17:34:06

NSK VH20AN高防尘直线导轨技术手册

VH20AN 是 NSK&#xff08;日本精工&#xff09;VH系列直线导轨中的高负载型/标准规格的方型滑块型号&#xff08;“AN”代表标准长度的方型滑块&#xff0c;适合从上方通过螺栓安装&#xff09;。 | 编码 | 属性 | 数据 | 内容 | |------|------|--------|------| | A |…

作者头像 李华
网站建设 2026/6/10 17:31:13

徐州懂事星球推荐门店

在徐州&#xff0c;如果你正在为孩子配镜的事情发愁&#xff0c;那么一定要了解一下徐州沐明眼镜苏宁广场店。这里不仅是孩子配镜的理想之选&#xff0c;更是守护青少年视力健康的专业机构。一、专业验光&#xff0c;精准定制孩子年龄小&#xff0c;初次配镜时&#xff0c;很多…

作者头像 李华