news 2026/4/15 16:17:24

上下文压缩

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
上下文压缩

当上下文过长时,一般是怎么进行压缩的?

当大语言模型(LLM)的上下文过长(超过模型原生上下文窗口,或即使在支持长上下文的模型中也希望降低成本、加速推理、减少KV cache占用)时,目前业界主流的压缩/优化方式可以大致分为以下几类(从最常用到较前沿的排序):

1. 最常见、最广泛使用的几种方式(工程上最成熟)

压缩方式核心思路压缩比(常见)适用场景代表工具/方法优缺点简评
LLM摘要/提炼式压缩(Abstractive)用LLM自己把历史对话/长文档总结成几句话或关键事实3–20×长对话、多轮Agent、文档问答LangChain Summary、LLMLingua的prompt压缩、Roo Code双重压缩效果最好,但需要额外调用一次LLM,成本稍高
提取式压缩(Extractive)从原文中直接挑出最重要的句子/片段保留下来5–15×文档问答、RAGLLMLingua、Selective Context速度快、无幻觉风险,但可能丢失连贯性
基于困惑度/信息熵的硬删减计算每个token/句子对当前任务的“重要性”(困惑度、自信息量),低于阈值就删2–10×几乎所有长上下文场景LLMLingua系列、信息熵剪枝非常快,几乎零额外推理成本,但压缩过度容易丢关键信息
滑动窗口 + 最近优先只保留最近N轮对话 + 少量关键历史摘要固定窗口聊天机器人、客服Agent绝大多数开源Agent框架默认策略实现最简单,但老信息容易永久丢失

2. 中间层/推理时压缩(越来越流行,2025–2026年主流方向)

  • 软压缩(Soft Prompt Compression)
    把长上下文编码成少量“虚拟token”或concept embedding,再喂给主模型。
    代表:CompLLM(分段独立压缩、可缓存)、Gist tokens、AutoCompressor
    优点:推理速度可提升2–4倍,KV cache减半甚至更多
    目前多用于长文档问答(Q&A over book / codebase)

  • KV Cache压缩(不压缩输入prompt,只压缩推理过程中产生的key-value缓存)

    • 量化(FP8 → INT4 / NVFP4)
    • 注意力相似性聚类 / 共享(相似的token共享KV)
    • 重要性驱逐(eviction,根据attention score动态扔掉不重要token的KV)
      代表:KVPress (NVIDIA)、H2O、SnapKV、Infini-attention的压缩记忆部分
      优点:对用户无感知,端到端提速明显,内存占用可减50%以上

3. 其他高级/特定领域方式

  • 代码专用压缩:LongCodeZip(粗粒度函数级 + 细粒度块级,根据指令困惑度排序保留)
  • 视觉/多模态压缩:把长文本渲染成图片再OCR(DeepSeek-OCR、Glyph),或直接用视觉token表示(2025年后很火的一条路线)
  • 记忆外置 + 按需召回(严格来说不算压缩,但效果类似)
    → 把历史压缩成向量存向量库,需要时RAG拉回来(最常见于生产级Agent系统)

实际产品/框架里最常看到的组合策略(2026年视角)

  1. 平时用滑动窗口 + 最近K轮兜底
  2. 当token快满时(比如占窗口90%以上),自动触发LLM摘要压缩LLMLingua式硬压缩
  3. 对于特别长的文档/RAG场景,优先用提取式 + 查询感知摘要(query-aware summary)
  4. 如果部署在GPU上且追求极致性能,再叠加KV cache量化 + 动态驱逐

一句话总结目前工程界的共识:

“能用滑动窗口 + 摘要就先用,能用困惑度硬删就别轻易上LLM摘要,能上软压缩/KV压缩就尽量上,能不让用户感知到压缩最好。”

你现在是在做哪一类场景的长上下文优化?(聊天、RAG、Agent、代码、百万token文档……)可以告诉我更具体的需求,我可以给你更针对性的当前最佳实践。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 0:40:46

巡检领域红外热成像相机镜头焦距选择方法总结

目录 一、核心选型原则 二、不同巡检场景的焦距选型方案 三、额外考量因素 四、选型验证方法 在巡检机器人硬件系统设计中,红外热成像相机镜头焦距的选择需结合巡检场景、检测距离、视场角(FOV)需求及目标分辨率这四大核心要素,最终实现对设备故障、温度异常等目标的精…

作者头像 李华
网站建设 2026/4/8 23:07:16

实时输入整形轨迹规划实现方法介绍

在高精度运动控制系统中,实时输入整形(Real-Time Input Shaping)是一种有效抑制机械系统残余振动的前馈控制技术。其核心思想是在原始指令信号上叠加若干个经过时延和幅值调制的脉冲序列,使得系统在完成运动后残余振动被显著削弱甚…

作者头像 李华
网站建设 2026/4/5 19:07:31

基于SSM的云服务器租赁资费管理系统的 开题报告

目录系统背景与意义系统功能模块技术选型预期成果创新点应用场景项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作系统背景与意义 云服务器租赁资费管理系统基于SSM(SpringSpring MVCMyBatis&am…

作者头像 李华
网站建设 2026/4/12 12:29:19

全协议嵌入式读卡器模块是一款工业级射频前端解决方案 其技术规格说明书:支持125KHz/13.56MHz双频段,兼容ISO14443A/B/C、ISO15693、iClass等全协议栈。

前言:全协议嵌入式读卡器模块是一款工业级射频前端解决方案支持125KHz/13.56MHz双频段,兼容ISO14443A/B/C、ISO15693、iClass等全协议栈。模块提供TTL/RS485/Wiegand/USB等多种接口,读卡距离2-8cm,工作温度-20℃~70℃,…

作者头像 李华
网站建设 2026/4/12 21:31:32

时序数据库选型操作:Apache IoTDB 的深度实战应用

【时序数据库选型】Apache IoTDB 的深度实战应用 (2026 年最新版,基于 2.x 系列,结合 IoT / 工业场景,从选型到部署再到优化全链路实战指南) 时序数据库(Time-Series Database, TSDB)是处理时间…

作者头像 李华
网站建设 2026/4/12 23:38:38

一篇搞定全流程,AI论文网站 千笔·专业论文写作工具 VS 灵感风暴AI

随着人工智能技术的迅猛迭代与普及,AI辅助写作工具已逐步渗透到高校学术写作场景中,成为本科生、研究生完成毕业论文不可或缺的辅助手段。越来越多面临毕业论文压力的学生,开始依赖各类AI工具简化写作流程、提升创作效率。但与此同时&#xf…

作者头像 李华