news 2025/12/15 15:58:56

Agent业务落地新策略:做减法而非盲目扩张,六种减法策略助你打造更稳定、高效、低成本的AI助手!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent业务落地新策略:做减法而非盲目扩张,六种减法策略助你打造更稳定、高效、低成本的AI助手!

简介

Agent业务落地的关键在于做减法而非盲目追求更大上下文、更多工具和复杂流程。通过精准检索、工具装载、上下文修剪等六种减法策略,结合文件系统卸载长材料,可有效避免上下文中毒、干扰、混淆等问题。从简单单体Agent起步,逐步实施减法策略,能使Agent更稳定、高效、低成本,更适合业务长期留存与复用。Less is more,先做减法,再谈进化。

一句话结论:不要沉迷“更大的上下文、更全的工具、更复杂的流程”。Agent 落地的核心是做减法——只保留完成当前任务“必要且充分”的信息、工具与步骤。


核心挑战

上下文工程视角

  • “上下文工程是一种精妙的艺术与科学——在上下文窗口中填充恰到好处的信息,以支持下一步。”
  • “从这个视角看,智能体的上下文工程可能以多种方式‘失效’:”
  • “如果智能体所需要的上下文不在其可用的总上下文中,智能体就无法成功。”
  • “如果智能体检索到的上下文并不包含所需的上下文,智能体就无法正确作答。”
  • “如果智能体检索到的上下文远大于所需的上下文,那么它就是在浪费(时间、tokens,或两者)。”
  • “在尝试隔离合适的上下文时,会出现一些具体挑战:”
  1. “Token 过多(检索到的上下文 ≫ 必要上下文)”——“几次网页搜索就可能让会话历史膨胀到数万 token……账单上涨且性能下降。”
  2. “需要大量上下文(必要上下文 > 支持的窗口)”——“上下文很快增长到无法装入窗口。”
  3. “查找小众信息(检索到的上下文 ≠ 必要上下文)”——“信息埋在上百/上千个文件中。”
  4. “随时间学习(可用总上下文 ≠ 必要上下文)”——“是否有办法把交互中的关键信息加入到后续可用上下文?”

视觉总览

上下文工程方法总览

要点:上下文不是越多越好,目标是让“检索到的上下文”尽量贴近“真正需要的上下文”,并尽可能小的超集。


为什么必须做减法(图解)

更长的上下文窗口、更多的工具定义、更多轮的推理链,并不会自然带来更好的效果。常见失效模式:

  • 上下文中毒:早期的幻觉/错误被反复引用并固化。
  • 上下文干扰:窗口够大也会“过度依赖历史”,忽略训练知识,策略更新变慢。
  • 上下文混淆:给太多工具/资料,模型会尝试“用上它们”,导致跑偏。
  • 上下文冲突:多来源信息自相矛盾,平均性能明显下滑。

参考图 1(无关信息导致误用):

工具无关性干扰

参考图 2(分片对话引发冲突):

分片提示导致性能崩塌

来自工程一线的证据也在支持“做减法”:

  • [Cursor] 语义搜索显著提升工程可用性。未启用语义搜索时,不满意的后续用户请求增加约 2.2%;启用后代码留存率整体 +0.3%,在 ≥1000 文件的大型代码库中提升至 +2.6%。
  • [Cursor] grep + 语义搜索的混合检索在大型代码库效果最佳:先精确定位(grep),再语义扩展(embedding 检索)。
  • [LangChain] 文件系统是极佳的上下文“外部化”接口:把中间结果、长文本、工作笔记写入磁盘,主对话只携带必要摘要,显著降低 token 与干扰成本。

三个层面的“减法”原则(速记卡)

  • 信息做减法:只取相关片段;定期修剪与摘要;把中间态卸载到对话之外。
  • 工具做减法:只暴露与当前任务相关的少量工具,限制说明长度,避免描述重叠。
  • 流程做减法:能单体就别多体;多体要“隔离上下文、专注分工、最终汇总”。

六个可落地的“减法动作”(配图版|[LangChain])

  1. RAG 精准检索(信息选择)
  • 做什么:先界定检索范围,再从向量库取少量、干净的片段。不要把“所有资料”塞进上下文。
  • 怎么控量:k=3~5 起步;严格控制 chunk 长度与重叠;必要时加 rerank。
  • 落地要点:复杂查询可以接受 20k~25k token 的一次性成本,但回答阶段要只用“被证实相关”的片段。

RAG

  1. 工具装载(Tool Loadout,工具选择)
  • 做什么:面向任务动态挑选少量工具再绑定给 Agent,避免 30+ 工具并发污染上下文。
  • 参考做法:用向量库索引“工具描述”,先由小模型做“需要哪些能力”的草判,再语义检索出 top-5~10 工具装载。
  • 经验阈值:≤10 个通常最稳;≥30 容易描述重叠与误用。

Tool Loadout

  1. 上下文隔离(Context Quarantine,流程解耦)
  • 做什么:把可并行的子任务丢到各自的“独立上下文线程”里,最后再由 Supervisor 汇总。
  • 好处:关注点分离、降低路径依赖;实际案例表明多智能体并行可带来显著性能提升。
  • 注意:非并行任务不必强上多体,保持单体更稳定。

Context Quarantine

  1. 上下文修剪(Context Pruning,信息减重)
  • 做什么:定期把无关/过期/重复的片段从上下文里清掉,保护核心指令与目标。
  • 工具建议:轻量 reranker(如小模型或专用 rerank 模型)先过滤 80% 的冗余,再交给主模型。
  • 指标:RAG 阶段 25k → 修剪到 ~11k,答案质量不降是理想上限。

Context Pruning

  1. 上下文摘要(Context Summarization,信息压缩)
  • 做什么:把“都相关但太长”的材料,交给便宜模型做结构化摘要(保留要点、数据、结论)。
  • 策略:先修剪后摘要;摘要目标压缩 50%~70%。
  • 工程化:把摘要做成独立节点,便于离线评估与持续调优。

Context Summarization

  1. 上下文卸载(Context Offloading,信息外置)
  • 做什么:把长链路工具输出、思考草稿、会话记忆写入“文件系统/外部存储”,主对话只带短提示与必要引用。
  • 推荐形态:
  • scratchpad(草稿本):记录推理/中间态,不进入主上下文;
  • persistent store(持久化):跨会话的知识库与用户偏好。
  • 与文件系统结合:以“单一接口”读/写/更新无限量上下文,查询时只把命中的小片段回填进对话。

Context Offload


最小可行架构(MVP|图解)

把“做减法”的策略固化到一条轻量流水线里:

  1. 接收请求 → 解析“任务类型、所需能力、信息范围”。
  2. 工具装载 → 语义检索出 ≤8 个相关工具再绑定。
  3. 检索阶段 → 先精确(grep/结构化索引),再语义拓展(embedding + rerank)。
  4. 修剪阶段 → 基于原始问题做针对性过滤,丢弃明显无关/重复片段。
  5. 摘要阶段 → 把仍然很长的材料交给便宜模型做 50%~70% 压缩。
  6. 生成阶段 → 主模型回答,严格引用检索/摘要材料。
  7. 卸载阶段 → 把中间结果、长文本、可复用知识写入文件系统,保存最小“引用指纹”。

注意:以上 7 步并非每次全跑。默认只启用 1/2/3/6,随着任务复杂度再“按需打开”4/5/7。


文件系统如何帮到 Agent(图解|[LangChain])

要点:把工具调用结果、长文档、推理草稿落盘;主上下文只保留必要摘要与引用指纹。检索时按需读回相关片段,避免上下文泛滥。

挑战→解法一览(文件系统路径|[LangChain])

补充图解:

细分来看,其分别想解决的点:

  1. Token 过多(retrieved context >> necessary context)
  • 传统方式将工具调用结果、笔记全部存入对话历史,导致令牌冗余(如 10k token 的网页搜索结果全程占用对话资源)。
  • 文件系统方案将大量工具结果写入文件系统,仅在需要时通过 grep 搜索关键词、读取必要上下文,本质是将文件系统作为“大型上下文草稿本”,降低费用与干扰。
  1. 需要大量上下文(necessary context > supported window)
  • 存储长期任务计划:通过复述操控注意力的计划写入文件,后续随取随用。
  • 存储子智能体知识:子体执行时将所学写入文件而非仅反馈主体,减少“电话游戏”式失真。
  • 存储指令文件:把大量操作指令放入文件而非系统提示,避免提示臃肿。
  1. 查找小众信息(retrieved context ≠ necessary context)
  • 借助 ls/glob/grep 进行结构化定位与全文检索,精确命中相关片段。
  • 当前模型可理解文件系统遍历逻辑;文件系统按目录结构化存储,逻辑清晰。
  • glob/grep 可定位特定文件、行、字符;read_file 可按行范围读取。
  1. 随时间学习(total context ≠ necessary context)
  • 将“指令/技能”视为可编辑的上下文,存入文件系统并可更新。
  • 用户反馈后,立即把关键信息(如姓名、邮箱、偏好)落盘,供后续会话使用。

渐进式落地路线(从“能用”到“好用”|看图做事)

Stage 0 基线:

  • 单体 Agent + 少量手选工具(≤10)。
  • 直接 RAG 检索 k=3~5;不做摘要/修剪;对话内引用片段原文。

Stage 1 做减法:

  • 加入工具装载:动态选择工具并限制描述长度。
  • 加入修剪:把明显无关的检索结果剔除。
  • tokens 与时延即刻下降,稳定性提升。

Stage 2 降本增效:

  • 在长材料上引入摘要节点(小模型),压缩 50%~70%。
  • 引入文件系统卸载:工具长输出与草稿本不进主上下文。

Stage 3 并行加速(可选):

  • 可并行任务引入上下文隔离的多体结构(Supervisor 汇总)。
  • 严格控制每个子体工具/上下文规模,做到“并行不并乱”。

实证数据与量化指标(图表|[Cursor])

实证图 1(语义搜索与留存):

实证图 2(不满意追问下降):

来源:Cursor 语义搜索 A/B 实验与工程报告(https://cursor.com/cn/blog/semsearch)。

指标与报警建议:

  • token 成本:按阶段与会话维度统计;设置软/硬阈值(如 8k/16k)。
  • 工具面板规模:单次绑定工具数 ≤10;超过报警并落盘分析。
  • 检索有效率:被最终引用的片段占检索结果比例 ≥50%。
  • 语义搜索开关 A/B:观察代码留存率、不满意请求率变化(目标:留存↑,不满意↓)。
  • 回答一致性:跨多轮是否自洽,无自我矛盾与目标漂移。

常见反模式(看到就删)

  • “窗口大=一次性全塞”:容易中毒、干扰、混淆、冲突并发作。
  • “工具越多越聪明”:≥30 个工具常引发描述重叠与误用。
  • “链越长越强大”:长链路更应把中间态卸载到外部;主对话只带摘要。
  • “全部在线推”:摘要/修剪/重排可以异步或缓存,别把延迟都放一条链里。

结语

做 Agent 不是“加法竞赛”,而是“减法艺术”。

把信息、工具、流程都减到“必要且充分”,再用文件系统把“长材料与中间态”卸载到对话之外——你的 Agent 会更稳、更快、更省,也更容易在真实业务里长期留存与复用。

Less, but better. 先做减法,再谈进化。


开源项目(索引|[LangChain])

  • DeepAgents:https://github.com/langchain-ai/deepagents

  • how_to_fix_your_context(实践 Notebook 合集):https://github.com/langchain-ai/how_to_fix_your_context

  • DeepAgents 工具示意:

    DeepAgents 工具示意

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/15 15:58:42

东阳全屋定制,我的实践亲测分享

东阳全屋定制实践亲测分享行业痛点分析全屋定制领域在近年来得到了快速发展,但技术挑战依然存在。当前,全屋定制面临的主要技术挑战包括设计复杂性、生产效率低下、材料选择有限以及安装精度问题。数据表明,超过60%的全屋定制企业在设计阶段会…

作者头像 李华
网站建设 2025/12/15 15:58:09

3、初探 GTK+ 应用开发

初探 GTK+ 应用开发 1. GTK+ 应用基础 在 GTK+ 图形应用开发中,我们先从简单的“Hello World”示例开始。这个示例虽基础,却涵盖了所有 GTK+ 应用必备的基本函数调用。 #include <gtk/gtk.h> int main (int argc,char *argv[]) {GtkWidget *window;/* Initialize G…

作者头像 李华
网站建设 2025/12/15 15:58:03

6、GTK+ 对话框开发全解析

GTK+ 对话框开发全解析 1. 自定义对话框概述 对话框是一种特殊的窗口,用于补充顶级窗口的功能。在 GTK+ 中, GtkDialog 是实现对话框的主要类,它继承自 GtkWindow 并扩展了额外功能,这使得我们可以使用一个或多个对话框来实现整个用户界面,同时隐藏主窗口。 2. 自定…

作者头像 李华
网站建设 2025/12/15 15:58:01

7、GLib:多功能实用库的全面解析

GLib:多功能实用库的全面解析 1. GLib基础概述 GLib是一个通用的实用库,用于实现许多非图形化的实用功能。它虽为GTK+所依赖,但也能独立运行。使用GLib的一大好处是它提供了跨平台接口,能让代码在其支持的操作系统上运行,无需大量重写代码。 基本数据类型 GLib提供了一…

作者头像 李华
网站建设 2025/12/15 15:57:45

14、深入探索 GTK+ 应用开发:多项目实践与属性解析

深入探索 GTK+ 应用开发:多项目实践与属性解析 在 GTK+ 应用开发领域,掌握相关知识并通过实践项目来巩固是提升技能的有效途径。下面将详细介绍几个不同类型的应用开发案例以及 GTK+ 中丰富的属性设置。 1. 多个实用应用开发案例 1.1 文件浏览器 文件浏览器是一个常用的应…

作者头像 李华
网站建设 2025/12/15 15:57:43

15、GTK+ 信号系统详解

GTK+ 信号系统详解 1. GTK+ 信号基础 GTK+ 是一个依赖信号和回调函数的系统。信号是一种通知机制,当用户执行了某些操作时,应用程序会收到相应的信号通知。当信号被发出后,我们可以让 GTK+ 运行一个名为回调函数的函数。 要连接一个信号,可以使用 g_signal_connect() …

作者头像 李华