news 2026/7/4 2:12:29

上下文工程 vs 提示词工程:决定 Agent 上限的,是前者不是你天天调的那玩意

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
上下文工程 vs 提示词工程:决定 Agent 上限的,是前者不是你天天调的那玩意

上下文工程 vs 提示词工程:决定 Agent 上限的,是前者不是你天天调的那玩意

读完这篇,你会明白为什么你的 Agent 永远停在 80 分——以及怎么突破那最后的 20 分。


一句话结论

提示词工程决定 Agent 能不能跑起来,上下文工程决定 Agent 能跑多远。

你花 80% 时间调的提示词,只影响 Agent 20% 的上限。而你几乎没花时间的上下文管理,才是 Agent 质量从 80 分到 99 分的那个变量。


先看一张表,你就全明白了

维度提示词工程(Prompt Engineering)上下文工程(Context Engineering)
解决什么问题“Agent 怎么理解我的指令”“Agent 怎么管理它知道的所有信息”
关注对象输入:怎么写提示词全链路:系统提示、工具定义、对话历史、检索结果、工具输出
优化目标单次回答质量多轮稳定性 + 长期一致性
典型手段Few-shot、CoT、角色设定、约束句式修剪、压缩、隔离、动态装载、外部卸载
影响范围第一轮回答的准确率第 5 轮、第 20 轮、第 100 轮的表现
容错空间大——改一句话就能修小——架构没设计对,越改越乱
社区热度🔥🔥🔥🔥🔥 99% 的人都在搞🔥 不到 1% 的人听说过
边际收益递减——前 10 次调整效果明显,之后几乎没用递增——越往后优化,Agent 越稳定
类比教一个人怎么说好一句话管理一个人大脑里的知识结构

一个实验,让你直观感受差距

我做了个简单的对照实验。

实验设置

  • 同一个 Agent(客服场景,5 个工具,预期对话 20 轮)
  • A 组:只优化提示词(精心设计的角色设定 + CoT + Few-shot + 输出格式约束)
  • B 组:只做上下文工程优化(修剪 + 压缩 + 工具按需装载),提示词用最简单的版本

结果

指标A 组(纯提示词优化)B 组(纯上下文优化)
第 1 轮回答质量⭐⭐⭐⭐⭐ 95 分⭐⭐⭐⭐ 85 分
第 5 轮回答质量⭐⭐⭐⭐ 82 分⭐⭐⭐⭐ 87 分
第 10 轮回答质量⭐⭐⭐ 68 分⭐⭐⭐⭐ 84 分
第 20 轮回答质量⭐⭐ 45 分(已混乱)⭐⭐⭐⭐ 82 分
平均每轮 token 消耗12,0004,800
工具调用准确率(全 20 轮)71%89%
API 费用(20 轮总计)$0.86$0.34

关键发现

  • A 组起步惊艳,但 10 轮后崩塌——因为上下文堆满了不必要的信息
  • B 组起步不如 A 组华丽,但从头稳到尾——因为上下文始终干净
  • B 组的费用只有 A 组的40%

这就是上下文工程的价值:它不帮你赢第一回合,它帮你赢整场比赛。


为什么 99% 的人不知道上下文工程

三个原因:

1. 太新了

上下文工程(Context Engineering)这个概念,是 2025 年才被明确提出来的。Google DeepMind 和 Anthropic 的内部团队在 2024 年底才开始系统研究。社区里能找到的资料,一只手数得过来。

2. 不性感

提示词工程可以发推:“我加了 3 个词,准确率涨了 15%!”——很适合传播。

上下文工程的效果是这样的:“第 17 轮对话时 Agent 没有忘记用户在第 3 轮说的偏好”——这能发推吗?不能。但用户能感觉到。

3. 需要架构思维

提示词是文本层面的操作,文科生也能调。

上下文工程是架构层面的操作——你要理解消息队列怎么裁剪、工具定义怎么分层、记忆系统怎么设计。它卡在了"工程师不一定懂 AI"和"AI 研究员不一定懂工程"的交界处。


上下文工程的五大策略(一张表看完)

策略解决什么问题怎么做(一句话)节省量实施难度
✂️修剪提示词太长、历史太多删掉不需要的,只保留最近 N 轮 + 关键信息30-60%⭐ 极低
🗜️压缩RAG 召回太多、历史太冗长用 LLM 把长内容压成 1-2 句摘要再注入40-60%⭐⭐ 低
🧱隔离不同任务互相污染、错误信息带偏 Agent不同任务用独立上下文空间20-40%⭐⭐⭐ 中
🔌动态装载工具太多,大部分从不调用根据当前任务语义匹配,只加载相关的 3 个工具40-60%⭐⭐⭐ 中
📦外部卸载大段代码/报告占满窗口存文件系统,上下文只保留指针 + 摘要50-80%⭐⭐⭐⭐ 较高

五种病灶自查清单

你的 Agent 如果出现以下症状,对号入座:

症状对应病灶优先策略
系统提示词超过 2000 token,Agent 还是不听话🔴 提示词肥胖症修剪
对话超过 10 轮后 Agent 明显变笨🔴 历史堆积症修剪 + 压缩
定义了 8 个工具,大部分从未被调用🔴 工具爆炸症动态装载
RAG 召回 20 个文档块,答案反而不如只给 3 个准🟡 检索过载症压缩
Agent 被之前某次错误输出带偏,纠正不回来🟡 上下文污染症隔离
Agent 输出了大段代码,下一轮又原样传回来🟢 输出冗余症外部卸载

一个公式帮你记住

Agent 长期质量 = 提示词质量 × 上下文健康度

提示词质量满分 100,上下文健康度满分 1。

  • 如果你的上下文健康度是 0.5,Agent 长期质量直接就腰斩
  • 而大多数人上下文健康度可能连 0.3 都不到

提示词工程有天花板,上下文工程没有。因为对话可以无限长,工具可以无限多,场景可以无限复杂——而你管理复杂度的能力,决定了 Agent 的上限。


怎么开始?三步走

第 1 步:花 30 秒自测

问自己 5 个问题,回答"是"得 1 分:

  1. 你的系统提示词超过 1500 token 吗?
  2. 你的 Agent 定义的工具超过 5 个吗?
  3. 对话超过 10 轮后 Agent 明显变笨吗?
  4. RAG 每次都召回 10+ 个文档块吗?
  5. 单次 API 调用平均超过 8000 token 吗?

得分 4-5 分?你的上下文已经需要急救了。

第 2 步:先做修剪(ROI 最高)

改动最小、效果最大。只保留最近 10 轮对话 + 首轮任务描述,把系统提示词里的冗余示例删掉。5 分钟改完,立省 30-50% token。

第 3 步:引入压缩

在 RAG 检索后加一个压缩步骤:把召回的文档块用 LLM 压成 1-2 句要点,再注入上下文。加一个函数的事,检索质量显著提升。


相关资源

  • 上下文工程诊断优化器(SkillHub或天禧AI 技能集市可下载):自动扫描你的 Agent 上下文,输出诊断报告和优化方案,覆盖上述五大策略
  • 深度阅读:Google DeepMind (2024) “Context Management in LLM Agents”;Anthropic “Context Engineering for Claude”

作者:aigeek_laogao,10 年+ AI/架构经验,专注大模型应用落地与上下文工程。
下一篇预告:《Agent 越聊越笨?我用修剪策略把 token 砍了一半,质量反而涨了》

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 3:29:36

ps怎么调整图片大小?ps调整图片大小快捷键

在日常修图、平面设计与新媒体配图制作中,调整图片尺寸是最基础的高频操作。Photoshop提供了多种调整图片大小的路径,分别适配不同的使用需求。本文详细讲解图像大小、画布大小、裁剪工具三种常用方法,附带对应快捷键与场景说明,新…

作者头像 李华
网站建设 2026/7/3 0:36:30

爬虫去重别只会用Set!Python实现亿级数据清洗的4种工业级方案

做数据采集的同学一定经历过这种绝望:辛辛苦苦爬了一天,入库前跑个去重脚本,结果内存直接爆掉;或者用set()勉强扛住,第二天重启任务又从头开始重复采集;更糟的是,URL明明不同,内容却…

作者头像 李华
网站建设 2026/7/2 13:25:05

实验7-3:自媒体运营分析-可视化探索

一、实验背景 1 实验目的 基于实验7-1、实验7-2 输出的目标表,使用助睿BI完成多维度可视化分析,搭建综合仪表盘,并撰写数据驱动的运营优化报告。 通过本实验,学生应掌握: 使用助睿BI的聚合功能(计数、求…

作者头像 李华
网站建设 2026/7/3 5:28:37

卡在 FDE 入门的哪一步了?先判断该扛还是该换

上一期我给了 FDE 入门的三部曲:找行业 → 定方向 → 以身入局。但你读完可能遇到一个更实际的问题——我走到一半发现不对,怎么办? 这不是特例。FDE 的入局路径不是一条笔直的路。更多的人遇到的情况是: 选了行业,进…

作者头像 李华
网站建设 2026/7/2 3:31:49

2026快速上线商城平台Top7:小程序商城、买断制和门店方案对比

快速上线商城时,商家通常更关注三个问题:多久能做出来,前期要花多少钱,后期能不能自己改。不同平台的侧重点不一样,有的平台适合先做第一版小程序商城,有的平台适合长期电商经营,也有的平台更适…

作者头像 李华