news 2026/4/15 19:58:49

AI Agent之一:不可能三角

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent之一:不可能三角

从一篇文章聊起

Anthropic的论文building-effective-agents,是2024年10月发布的一篇解析Workflow和AI Agent关系的论文,详细解读可参考如何构建智能体。

从这篇论文能看出,2024年Workflow仍是主流,AI Agent尚未普及,但这篇文章极具旗帜意义——它首次清晰梳理了Workflow与AI Agent的内在关联,为后续AI Agent的工程化落地奠定了Workflow设计的基础。文章对Workflow的范式做了详细论述,对AI Agent的介绍却语焉不详,仅简单提及AI Agent的架构本身是简洁的

AI Agent火起

Claude Code于2025年2月推出,同年10月网页版上线后,短短数月便快速爆发,随后还出现了Skill相关玩法,行业普遍认为,AI Agent的元年正式到来。

2024年的论文中已有AI Agent的概念,为何直到2025年底才迎来爆发?核心原因是此前存在工具调用准确率的关键性限制。

2025年下半年,OpenAI O3、Claude 4.5等标志性推理模型相继发布,这些基座模型的推理能力实现了质的提升,让工具调用准确率大幅提高。技术瓶颈突破后,AI Agent便迎来了全面爆发。

如今各类AI Agent开发手册层出不穷,可预见头部公司必将推出Agent SDK抢占市场,开发者无需再从0开始自研AI Agent。而要做好AI Agent开发,首先要理解其核心本质。

AI Agent的本质

聊到这里,我们不妨思考:AI Agent的本质是什么?它是一套完整的智能系统,核心链路可概括为大模型→上下文→应用,其中上下文是影响系统表现的核心环节。

我们用计算机系统做个类比:大模型是AI Agent的“CPU”,为整个系统提供核心推理动力;对应的,Workflow和AI Agent框架则相当于计算机的“操作系统”——操作系统的核心是统筹管理CPU、内存、外设等全资源,这类框架的核心则是统筹调度任务规划、工具调用、上下文管理、任务状态监控等Agent全环节。其中,上下文是框架所管理的“核心数据资源”,类似操作系统管理的内存数据;框架则是上下文的“统筹管理载体”,让上下文的价值得以有效发挥。

Claude Code的诸多设计思路,本质都是围绕上下文管理展开的。例如Skill的设计细节:先加载不超过200字符的Skill描述,再根据使用决策加载具体的Skill。这一设计的核心,就是通过轻量描述+按需加载的精细化上下文管理,既规避了上下文窗口的限制,又缓解了注意力有效性衰减的问题。

可以说,上下文的工程化管理能力,直接决定了AI Agent应用的实际表现。即便AI Agent框架能处理大部分通用的上下文问题,但每个应用都有自身的业务特点,唯有深入理解上下文的管理逻辑,才能构建出贴合场景的优秀AI Agent。

不可能三角

AI Agent的落地过程中,存在一个经典的不可能三角:

准确性 (Accuracy) ▲ /│\ / │ \ AI Agent 不可能三角 / │ \ (同时优化三者) / │ \ / │ \ / │ \ 延迟 ←───┴─────→ 成本 (Latency) (Cost)
  • 准确性:把事做对、做好,输出结果贴合实际需求且无差错;
  • 延迟:完成一次任务的全链路耗时,从接收需求到输出有效结果的总时间;
  • 成本:完成任务的综合代价,主要包括算力、工具调用的资金成本,以及研发、运维的精力与资源投入。

这三者无法同时做到极致,优化其中一个或两个维度,必然要在剩余维度做出妥协:

  • 想把事做得又对又好(高准确性),要么增加资金与资源投入(高成本),要么接受更长的任务处理时间(高延迟);
  • 想又快又好地完成任务(低延迟+高准确性),就必须投入更多的算力、研发等资源(高成本);
  • 想又快又省钱地完成任务(低延迟+低成本),则难以保证结果质量,易出现差错(低准确性)。

为何会产生这个不可能三角?并非单一的大模型约束所致,而是AI Agent端到端全链路的多层核心约束叠加的结果。其中大模型的固有特性约束是底层核心,再叠加工程落地过程中算力、流程编排、任务执行等环节的配套约束,最终形成了三者的制衡关系。

基于此,我们提炼出当前阶段影响AI Agent从“可用”到“好用”的TOP3核心约束。之所以聚焦当前阶段,是因为工具调用准确率是AI Agent从“概念”到“可用”的关键突破因素,该问题解决后,上下文相关约束便成为AI Agent从“可用”到“好用”的核心矛盾。

约束限制解决方案
上下文窗口2025年上半年主流模型的120K tokens硬限制,超量则无法处理批量工具处理数据 + Top-K 摘要保留核心信息,减少上下文数据量
注意力有效性上下文超50K tokens后,模型任务准确率显著下降分层按需加载内容,压缩冗余信息,降低模型注意力负荷
长任务连续性多步执行易偏离核心目标,任务连贯性大幅下降记录每步任务节点状态,持续锚定总目标,避免执行漂移

这三个约束,是我们理解并深入AI Agent设计的核心着力点。以上下文窗口为例,如今模型能力已实现大幅进步,远超此前的120K tokens,不少模型支持200K tokens,1M tokens(1000K tokens)的模型也屡见不鲜。在实际任务执行中,每次工具调用仅新增数K tokens的上下文,足以支撑长时间的连续调用,多数任务已不会超出上下文窗口的硬限制。此时,上下文窗口的限制已非当前主要矛盾,而上下文窗口规模超出模型注意力有效阈值引发的注意力漂移,才是核心问题。这也是为何在一些长任务中,部分指令表述明确,大模型却无法精准响应执行的关键原因。

总结

AI Agent的元年已至,开发出贴合场景、表现优异的AI Agent是所有开发者的共同目标,但这并非仅依靠一款优秀的AI Agent框架就能实现。其核心在于真正理解AI Agent的本质,掌握上下文管理的工程化能力,唯有如此,才能让AI Agent的价值在实际场景中充分落地。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 21:51:31

科研AI模型复现难到崩溃?5个关键注意事项,一次复现成功!

点赞、关注、收藏。不迷路 做AI科研的兄弟姐妹们,谁没被模型复现折磨过? 照着顶刊论文逐行敲代码,却死活跑不出相同结果;作者给的参数模糊不清,调了几十组还是差好几个百分点精度;环境配置踩坑无数&#x…

作者头像 李华
网站建设 2026/4/15 19:14:19

ant -vue a-table去掉表头

<template><a-table:columns"columns":data-source"data":show-header"false" <!-- 核心属性&#xff1a;隐藏表头 -->bordered <!-- 可选&#xff1a;显示边框&#xff0c;方便查看表格结构 -->/> </template>…

作者头像 李华
网站建设 2026/4/11 17:59:10

3.3V驱动MOS方法——稳压二极管+NMOS

一、背景 在许多实际应用中&#xff0c;如电机控制和灯光调控&#xff0c;通常需要利用PWM&#xff08;脉宽调制&#xff09;信号来控制功率或转速。这些系统常常使用MOSFET&#xff08;场效应管&#xff09;来开关负载。在常见的PMOS和NMOS中&#xff0c;除非有特殊需求&…

作者头像 李华
网站建设 2026/4/15 6:07:26

nodejs基于vue兴趣班报名管理系统_g3td7

文章目录 系统概述技术栈核心功能模块数据统计部署与优化扩展方向 --nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; 系统概述 Node.js与Vue.js结合的“兴趣班报名管理系统”通常采用前后端分离架构&#xff0c;后端…

作者头像 李华
网站建设 2026/4/12 5:42:34

中小厂 AI 招聘隐藏要求:除了技术,这 2 点更关键

在AI人才竞争白热化的当下&#xff0c;中小厂往往无法像大厂那样比拼薪资福利与品牌光环&#xff0c;其招聘逻辑也更贴近业务本质。多数求职者误以为只要夯实Python、TensorFlow等技术栈&#xff0c;就能顺利通关&#xff0c;但实际上面试官在技术达标后&#xff0c;会更看重两…

作者头像 李华
网站建设 2026/4/13 10:00:50

spoon如何连接carte如何将.ktr任务或者.kjb任务提交个远程carte服务让,carte的服务端来执行 etl脚本的任务呢?

前提是你的carte远程服务已经启动了 第一步打开 spoon&#xff0c;打开文件选中你的.ktr或者.kjb 第二步spoon与carte服务的通信连接配置&#xff0c;就是通过.ktr任务配置文件的子服务器选项来配置 第三步 对.ktr任务进行运行时配置 .ktr有两种运行模式 第一种 Pentaho loc…

作者头像 李华