掌握上下文工程：小白也能学会如何让大模型突破记忆限制，收藏必备！-洪萨配资

本文深入探讨了上下文工程（Context Engineering）的关键技术，旨在帮助AI Agent有效管理语言模型的有限上下文窗口。文章详细介绍了上下文压缩、记忆管理、子代理和预防性过滤等方法，以及它们如何帮助语言模型突破记忆限制。通过学习这些技术，即使是小白也能更好地理解和应用大模型，实现复杂任务的执行。同时，文章还展望了未来Agentic Context Engineering的发展趋势，强调了模型自主学习上下文管理的重要性。

为什么需要 Context Engineering?

语言模型本质上是在进行"文字接龙"——根据输入的 prompt 生成相应的输出。但语言模型有一个根本特性：它"活在当下"，只关注当前的输入，而不记得之前发生过什么。

当 AI Agent 执行复杂任务时，会产生一个不断增长的对话历史：

人类给出的初始指令
语言模型生成的工具调用指令
工具执行后返回的结果
新一轮的推理和决策

这些信息必须被串联成一个完整的输入序列，才能让语言模型理解当前的状态。然而，语言模型的输入长度是有上限的——这就是 Context Engineering 存在的根本原因。

AI Agent 的角色：AI Agent 就像语言模型的"守门人"或"经纪人"，拦截在语言模型与外界之间，精心筛选和管理语言模型能看到的内容。它确保输入既不会超出长度限制，也不会因过度精简而丢失关键信息。

图1：AI Agent 作为语言模型与外界的中介

Context Engineering 的形式化定义

从程序设计的角度看，没有 Context Engineering 的 AI 系统可以表示为一个简单的循环：

fort=1to ∞: I_t=当前输入（用户指令或工具输出） C_t=历史上下文 O_t=LLM(C_t + I_t)// 语言模型处理 C_{t+1}=C_t + I_t + O_t // 直接累积所有历史

这种方式的问题显而易见：上下文 C 会无限增长，最终超出语言模型的处理能力。

引入 Context Engineering 后，关键变化在于最后一行：

fort=1to ∞: I_t=当前输入 C_t=历史上下文 O_t=LLM(C_t + I_t)C_{t+1}=F(C_t, I_t, O_t)// 通过函数 F 智能管理上下文

这个函数 F 就是 Context Engineering 的核心——它决定了如何从历史信息中提取、压缩、存储和检索内容。

Context Engineering 的核心技术

1. 上下文压缩（Context Compression）

压缩是 Context Engineering 最基础也最重要的功能。当上下文过长时，需要通过某种方式将其缩短。

1.1 LLM 摘要压缩

最直观的方法是使用语言模型本身对历史记录进行摘要。将较久远的对话历史（排除 system prompt）输入到语言模型，让它生成一段简短的摘要，替换原本冗长的内容。

优点：能够保留语义信息，摘要质量较高
缺点：需要额外的 LLM 调用，增加计算成本

1.2 观察掩蔽（Observation Masking）

一种更简单粗暴但出乎意料有效的方法：直接将工具的输出替换为一句话，如"这里曾经有个工具的输出"。

研究表明，在 SWE-bench（软件工程基准测试）上，这种方法的表现与 LLM 摘要相当。虽然听起来不可思议，但这说明很多时候工具的详细输出并不需要一直保留在上下文中。

1.3 混合策略

实践中最有效的方案是结合两种方法：

前期：使用观察掩蔽，快速缩短工具输出
后期：当上下文累积到一定程度后，使用 LLM 摘要进行一次性大幅压缩

这种策略在保持性能的同时，最大化了 token 效率。

图2：混合压缩策略的工作流程

1.4 压缩的挑战：Context Collapse

压缩并非没有代价。ACON 论文发现了一个现象叫做"上下文坍缩"（Context Collapse）——当压缩丢失了关键信息时，原本能够完成的任务就会失败。

例如，某个 Meta 研究人员让 AI 帮他管理邮件，结果 AI 在压缩时把"删除邮件需要人类同意"这条关键指令压缩掉了，导致 AI 开始不经同意就删除邮件。

解决方案：ACON 提出让另一个语言模型分析压缩前后的性能差异，生成反馈（feedback），指导未来的压缩行为。这种方法无需训练模型参数，仅通过提示工程就能显著提升压缩质量。

2. 记忆管理（Memory Management）

压缩只是治标，更根本的方法是将信息存储到外部，需要时再检索——这就是 AI Agent 的"记忆"机制。

2.1 记忆的本质

对语言模型而言，记忆就是：

存储
将上下文中的内容保存到硬盘/数据库（如 log1.txt）
检索
在需要时通过工具读取这些文件

在上下文中，原本冗长的内容被替换为一个简短的引用：“详见 log1.txt”。多数情况下，语言模型不需要回看这些细节；但当真正需要时，它可以执行read指令重新加载。

这就像《Rick and Morty》中 Morty 发现自己的记忆被存储在地下室的管子里——记忆被外置化，需要时才重新加载。

2.2 记忆的组织方式

不同的研究提出了多种记忆组织方法：

图结构
将记忆构建成知识图谱，便于理解记忆间的关联
时间标记
为记忆添加时间戳，优先检索最新或最相关的记忆
语义索引
通过向量数据库实现语义搜索

2.3 形式化表示

引入记忆后，上下文 C 应该被分为两部分：

P (Prompt)
：会被输入到语言模型的部分
M (Memory)
：存储在外部的部分

算法变为：

fort=1to ∞: I_t=当前输入 P_t, M_t=C_t 的两个组成部分 O_t=LLM(P_t + I_t)// 只有 P 进入模型 P_{t+1}, M_{t+1}=F(P_t, M_t, I_t, O_t)// 分别更新两部分

当执行save_memory时，更新 M；当执行load_memory时，更新 P。

图5：记忆管理的形式化表示

3. Sub-Agent：自主压缩机制

Sub-agent（子代理）是一种更高级的上下文管理方式，它本质上是一种"自主压缩"机制。

3.1 Sub-Agent 的工作原理

当主 Agent 遇到一个可以独立完成的子任务时，它可以执行spawn指令，创建一个 sub-agent：

Sub-agent 获得一个独立的子任务和初始上下文
Sub-agent 与语言模型交互，执行工具，累积自己的上下文
完成任务后，sub-agent 执行return，将结果返回给主 Agent
关键
Sub-agent 的整个执行历史被压缩为return中的一句话

这种机制使得上下文长度呈现"锯齿状"变化：创建 sub-agent 时开始累积，return 时大幅缩短。

图3：Sub-Agent 的工作流程与上下文压缩

3.2 训练 Sub-Agent 能力

语言模型天然不喜欢"抹除记忆"，因此 sub-agent 能力需要通过强化学习训练获得。训练时需要设计特殊的奖励函数：

惩罚主干过长
如果主 Agent 的上下文过长，给予负奖励
惩罚越界行为
如果 sub-agent 超出其职责范围，完成了整个任务，也给予负奖励

通过这种方式，模型学会在合适的时机创建 sub-agent，并让 sub-agent 专注于其子任务。

4. 预防性过滤（Preventive Filtering）

图4：预防性过滤机制

与其事后压缩，不如一开始就防止过多信息进入上下文。研究发现，在 AI Agent 的上下文中：

84%
的 token 来自外部输入（observation）
只有6.5%来自动作指令
只有9.6%来自模型的推理

这意味着，如果能在信息进入上下文前就进行过滤，效果会更好。

4.1 智能读取工具

传统的read工具会将整个文件内容一次性加载到上下文。改进的方案是让read工具接受额外的参数，指定需要读取的内容：

read(file="log.txt", filter="与 bug 修复相关的内容")

这个read工具本身需要具备一定智能（可以是一个小型语言模型），能够理解过滤条件并提取相关内容。

4.2 按需加载工具

另一个问题是工具说明本身也会占用大量 token。例如，GitHub 工具的完整说明就有 4600 个 token。

解决方案：不要在 system prompt 中预加载所有工具，而是让语言模型动态请求所需工具：

语言模型分析任务，输出所需工具的描述
搜索引擎根据描述从工具库中检索相关工具
将工具说明动态加载到上下文中

这正是 OpenClaw 中skill机制的核心思想——按需加载能力。

Context Engineering 的实践案例

OpenClaw 的实现

OpenClaw 作为早期的 AI Agent 框架，已经实现了多种 Context Engineering 技术：

Compaction：当上下文超过阈值时，强制执行摘要压缩
Memory Get/Search：

memory_search：语义搜索找到相关记忆片段

memory_get：只读取指定行范围的内容，而非整个文件
Observation Masking：简化工具输出
Sub-agent：通过 spawn 和 return 实现

为什么需要强制规则？

OpenClaw 使用硬编码的规则触发压缩（如上下文超过 N 个 token），而不是让语言模型自主决定。原因很简单：语言模型不喜欢抹除自己的记忆。

研究发现，即使明确告诉模型"当我说 reflection 时，你必须执行 erase 工具"，模型仍然会拒绝执行。这种"抗拒遗忘"的特性需要通过专门的训练（如 AgentFold 论文）才能克服。

未来展望：Agentic Context Engineering

Context Engineering 的终极形态是让 AI Agent 自己决定如何管理上下文，而非依赖人类工程师设计的规则。这被称为Agentic Context Engineering。

在这个范式下：

语言模型不仅执行任务，还要自主优化其输入管理策略
通过强化学习，模型学会在正确的时机压缩、存储、检索信息
Context Engineering 从"工程技巧"演变为"模型能力"

这需要在训练阶段就将上下文管理作为一个显式的学习目标，而不是事后通过提示工程来弥补。

结论

Context Engineering 是 AI Agent 能够执行复杂、长时任务的基础。它通过压缩、记忆管理、子代理和预防性过滤等技术，突破了语言模型有限上下文窗口的限制。

随着 AI Agent 技术的发展，Context Engineering 也在从"人工设计的规则"向"模型自主学习的能力"演进。未来的 AI Agent 将更加智能地管理自己的"记忆"，就像人类一样，知道什么该记住、什么该遗忘、什么该在需要时重新查找。

正如我们现在看 OpenClaw 可能像看初代 iPhone，Context Engineering 的技术也必将在未来几年内发生革命性的变化。但无论如何演进，其核心目标始终不变：让 AI Agent 在有限的资源下，做出无限的可能。

那么如何学习大模型 AI ？

对于刚入门大模型的小白，或是想转型/进阶的程序员来说，最头疼的就是找不到系统、全面的学习资源，要么零散不成体系，要么收费高昂，白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包，覆盖从入门到实战、从理论到面试的全流程，所有资料均已整理完毕，免费分享给各位！

核心包含：AI大模型全套系统化学习路线图（小白可直接照做）、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库，一站式解决你的学习痛点，不用再到处搜集拼凑！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型，方向比努力更重要！很多小白入门就陷入“盲目看视频、乱刷资料”的误区，最后越学越懵。这里给大家整理的这份学习路线，是结合2026年大模型行业趋势和新手学习规律设计的，最科学、最系统，从零基础到精通，每一步都有明确指引，帮你节省80%的无效学习时间，少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基，尤其是对于程序员来说，想要真正吃透大模型原理，离不开优质的书籍和文档支撑。本次整理的书籍和电子文档，均由大模型领域顶尖专家、大厂技术大咖撰写，涵盖基础入门、核心原理、进阶技巧等内容，语言通俗易懂，既有理论深度，又贴合实战场景，小白能看懂，程序员能进阶，为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向，还是程序员转型、拓展业务边界，都需要紧跟行业趋势。本次整理的2026最新大模型行业报告，针对互联网、金融、医疗、工业等多个主流行业，系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会，帮你清晰了解哪些行业更适合大模型落地，哪些技术方向值得重点深耕，避免盲目学习，精准对接行业需求。值得一提的是，报告还包含了多模态、AI Agent等前沿方向的发展分析，助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说，“光说不练假把式”，只有动手实战，才能真正巩固所学知识，将理论转化为实际能力。本次整理的实战项目，涵盖基础应用、进阶开发、多场景落地等类型，每个项目都附带完整源码和详细教程，从简单的ChatPDF搭建，到复杂的RAG系统开发、大模型部署，难度由浅入深，小白可逐步上手，程序员可直接参考优化，既能练手提升技术，又能丰富简历，为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理，转向侧重技术落地和业务结合的综合考察，很多程序员和新手因为缺乏针对性准备，明明技术不错，却在面试中失利。为此，我精心整理了各大厂最新大模型面试真题题库，涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点，不仅有真题，还附带详细解题思路和行业踩坑经验，帮你精准把握面试重点，提前做好准备，面试时从容应对、游刃有余。

6、四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】