上下文压缩-洪萨配资

当上下文过长时，一般是怎么进行压缩的？

当大语言模型（LLM）的上下文过长（超过模型原生上下文窗口，或即使在支持长上下文的模型中也希望降低成本、加速推理、减少KV cache占用）时，目前业界主流的压缩/优化方式可以大致分为以下几类（从最常用到较前沿的排序）：

压缩方式	核心思路	压缩比（常见）	适用场景	代表工具/方法	优缺点简评
LLM摘要/提炼式压缩（Abstractive）	用LLM自己把历史对话/长文档总结成几句话或关键事实	3–20×	长对话、多轮Agent、文档问答	LangChain Summary、LLMLingua的prompt压缩、Roo Code双重压缩	效果最好，但需要额外调用一次LLM，成本稍高
提取式压缩（Extractive）	从原文中直接挑出最重要的句子/片段保留下来	5–15×	文档问答、RAG	LLMLingua、Selective Context	速度快、无幻觉风险，但可能丢失连贯性
基于困惑度/信息熵的硬删减	计算每个token/句子对当前任务的“重要性”（困惑度、自信息量），低于阈值就删	2–10×	几乎所有长上下文场景	LLMLingua系列、信息熵剪枝	非常快，几乎零额外推理成本，但压缩过度容易丢关键信息
滑动窗口 + 最近优先	只保留最近N轮对话 + 少量关键历史摘要	固定窗口	聊天机器人、客服Agent	绝大多数开源Agent框架默认策略	实现最简单，但老信息容易永久丢失

软压缩（Soft Prompt Compression）
把长上下文编码成少量“虚拟token”或concept embedding，再喂给主模型。
代表：CompLLM（分段独立压缩、可缓存）、Gist tokens、AutoCompressor
优点：推理速度可提升2–4倍，KV cache减半甚至更多
目前多用于长文档问答（Q&A over book / codebase）
KV Cache压缩（不压缩输入prompt，只压缩推理过程中产生的key-value缓存）
- 量化（FP8 → INT4 / NVFP4）
- 注意力相似性聚类 / 共享（相似的token共享KV）
- 重要性驱逐（eviction，根据attention score动态扔掉不重要token的KV）
  代表：KVPress (NVIDIA)、H2O、SnapKV、Infini-attention的压缩记忆部分
  优点：对用户无感知，端到端提速明显，内存占用可减50%以上

一句话总结目前工程界的共识：

“能用滑动窗口 + 摘要就先用，能用困惑度硬删就别轻易上LLM摘要，能上软压缩/KV压缩就尽量上，能不让用户感知到压缩最好。”

你现在是在做哪一类场景的长上下文优化？（聊天、RAG、Agent、代码、百万token文档……）可以告诉我更具体的需求，我可以给你更针对性的当前最佳实践。

目录一、核心选型原则二、不同巡检场景的焦距选型方案三、额外考量因素四、选型验证方法在巡检机器人硬件系统设计中，红外热成像相机镜头焦距的选择需结合巡检场景、检测距离、视场角（FOV）需求及目标分辨率这四大核心要素，最终实现对设备故障、温度异常等目标的精…

李华

在高精度运动控制系统中，实时输入整形（Real-Time Input Shaping）是一种有效抑制机械系统残余振动的前馈控制技术。其核心思想是在原始指令信号上叠加若干个经过时延和幅值调制的脉冲序列，使得系统在完成运动后残余振动被显著削弱甚…

李华

目录系统背景与意义系统功能模块技术选型预期成果创新点应用场景项目技术支持可定制开发之功能亮点源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作系统背景与意义云服务器租赁资费管理系统基于SSM（SpringSpring MVCMyBatis&am…

李华

前言：全协议嵌入式读卡器模块是一款工业级射频前端解决方案支持125KHz/13.56MHz双频段，兼容ISO14443A/B/C、ISO15693、iClass等全协议栈。模块提供TTL/RS485/Wiegand/USB等多种接口，读卡距离2-8cm，工作温度-20℃~70℃，…

李华

【时序数据库选型】Apache IoTDB 的深度实战应用 （2026 年最新版，基于 2.x 系列，结合 IoT / 工业场景，从选型到部署再到优化全链路实战指南） 时序数据库（Time-Series Database, TSDB）是处理时间…

李华

随着人工智能技术的迅猛迭代与普及，AI辅助写作工具已逐步渗透到高校学术写作场景中，成为本科生、研究生完成毕业论文不可或缺的辅助手段。越来越多面临毕业论文压力的学生，开始依赖各类AI工具简化写作流程、提升创作效率。但与此同时&#xf…

李华