大模型推理优化必读：一文吃透 FlashAttention、vLLM 与 GQA 四大核心技术（建议收藏）-洪萨配资

本文探讨了大模型推理中显存溢出（OOM）的根源——KV Cache。为解决有限显存下的速度与并发瓶颈，文章详解了四种主流优化技术：利用FlashAttention减少内存访问加速计算；通过PagedAttention（如vLLM）实现显存动态管理；采用MQA/GQA架构从源头降低KV Cache占用；以及使用量化技术进一步压缩显存。掌握这些技术组合，能显著提升推理服务的吞吐量与效率。

引言

假设你要部署一个 LLaMA-70B 的推理服务。

第一个问题是：显存够吗？模型权重 140GB（FP16），一张 H100 80GB 显存装不下，至少需要两张卡。

好，上了两张卡，模型加载成功。开始推理，第一个请求正常返回。但随着请求增多，你发现显存占用持续上涨，很快就 OOM 了。

这时候你可能会问：模型权重是固定的，为什么显存还会涨？

答案是KV Cache——推理过程中缓存的中间状态。每生成一个 token，KV Cache 就增长一点。请求越多、上下文越长，KV Cache 占用越大。

这就引出了大模型推理的核心挑战：如何在有限的显存中，让模型跑得更快、服务更多请求？

本文将沿着这个问题，一步步介绍四种主流的优化技术。

显存都去哪了？

在深入具体技术之前，先搞清楚一个基础问题：推理时显存都被什么占用了？

主要有三部分：

模型权重：固定占用，与模型大小成正比
KV Cache：动态增长，与序列长度和并发请求数成正比
中间激活值：计算过程中的临时数据，计算完成后释放

对于推理服务来说，模型权重是固定成本，真正的变量是 KV Cache。

以 LLaMA-70B 为例，单个 token 的 KV Cache 约占 1.6MB。如果一个请求生成 4096 个 token，KV Cache 就需要 6.5GB。10 个并发请求？65GB。这还没算输入的 prompt 部分。

所以，优化大模型推理，核心是两件事：

让计算更快：减少每个 token 的生成时间
让内存更省：在相同显存下服务更多请求

接下来的四种技术，分别从不同角度解决这两个问题。

技术详解

一、FlashAttention：让计算更快

我们先从计算效率说起。

Transformer 的核心是注意力计算，公式很简单：

Attention(Q, K, V) = softmax(QK^T / √d) × V

但这个公式有个隐藏的性能陷阱。

问题在哪？

计算 QK^T 会生成一个 N×N 的矩阵（N 是序列长度）。当 N=8192 时，单个注意力头的这个矩阵就需要 256MB。多头、多层叠加后，显存占用爆炸式增长。

但这还不是最大的问题。

GPU 有两种存储：高速缓存（SRAM，快但小）和显存（HBM，大但慢）。标准 Attention 的计算流程是：

从 HBM 加载 Q、K、V
计算 QK^T，写回 HBM
从 HBM 加载，计算 softmax，写回 HBM
从 HBM 加载，与 V 相乘，写回 HBM

发现问题了吗？数据在 HBM 和计算单元之间来回搬运了好几次。GPU 的计算速度极快，但 HBM 的带宽是瓶颈。大量时间浪费在"搬数据"而不是"算数据"上。

FlashAttention 的解法

既然瓶颈是内存访问，那就减少访问次数。

FlashAttention 的核心思想是分块计算（Tiling）：把 Q、K、V 切成小块，每次只加载一小块到 SRAM，在 SRAM 里完成所有计算，只把最终结果写回 HBM。

这里有个技术难点：softmax 需要知道整行的数值才能计算（因为要除以总和）。分块之后，每次只看到一部分，怎么算？

答案是在线 Softmax：通过数学技巧，边算边更新，最终结果和一次性算完全一致。

效果如何？

内存占用从 O(N²) 降到 O(N)
训练速度提升 2-4 倍
PyTorch 2.0+、Hugging Face Transformers 已内置支持

FlashAttention 解决了计算效率问题。但还记得我们开头说的 KV Cache 问题吗？FlashAttention 没有解决这个。

二、PagedAttention：让内存管理更高效

FlashAttention 让单次计算更快了。但在实际的推理服务中，还有一个工程问题：KV Cache 的内存管理。

问题在哪？

不同请求的序列长度不同：有的请求只生成 100 个 token，有的要生成 4000 个。而且生成是动态的，一开始不知道最终会有多长。

传统做法是预分配：假设最大长度 2048，为每个请求都预留 2048 tokens 的空间。

这会导致严重的浪费。实际测量显示，KV Cache 的有效利用率往往不足 50%。内存被白白占着，本可以多服务几个请求。

操作系统的启发

这个问题，操作系统早就解决过了。

物理内存有限，每个进程都想要大块连续内存。操作系统怎么做的？虚拟内存 + 分页：把内存分成固定大小的页，按需分配，进程看到的是"连续地址"，实际物理位置可以不连续。

PagedAttention 把这个思想搬到了 KV Cache 管理上：

核心机制：

固定大小的 Block：把 KV Cache 划分为固定大小的块（如 16 tokens/块）
动态分配：用多少分配多少，不预占
Block Table：维护逻辑地址到物理地址的映射
非连续存储：一个请求的 KV Cache 可以散落在不同位置

vLLM 的实现

vLLM 是 PagedAttention 的代表性实现，效果显著：

内存利用率从不足 50% 提升到接近 100%
吞吐量比 HuggingFace Transformers 提升 2-4 倍
支持 Prefix Caching（多请求共享相同前缀的 KV Cache）

到这里，我们解决了两个问题：FlashAttention 让计算更快，PagedAttention 让内存管理更高效。

但有没有办法从根源上减少 KV Cache 的大小？

三、MQA 与 GQA：从架构层面减少 KV Cache

前面两种技术是"优化使用"，这种方法是"减少需求"。

问题在哪？

标准 Transformer 使用 Multi-Head Attention（MHA）：每个注意力头都有独立的 Q、K、V。一个 32 头的模型，KV Cache 要存 32 组 K 和 V。

能不能让多个头共享 K、V？

MQA：激进的共享

MQA（Multi-Query Attention）的做法很激进：所有 Q 头共享同一组 K、V。

标准 MHA：32 个 Q 头 + 32 个 K 头 + 32 个 V 头 MQA： 32 个 Q 头 + 1 个 K 头 + 1 个 V 头

KV Cache 直接减少到 1/32。但代价是模型质量有所下降。

GQA：平衡的选择

GQA（Grouped-Query Attention）是折中方案：把 Q 头分组，每组共享一套 K、V。

标准 MHA：32 个 Q 头，32 个 KV 头 GQA-8： 32 个 Q 头，8 个 KV 头（每 4 个 Q 共享 1 个 KV） GQA-4： 32 个 Q 头，4 个 KV 头（每 8 个 Q 共享 1 个 KV） MQA： 32 个 Q 头，1 个 KV 头

实际应用

LLaMA 2 70B：使用 GQA-8
Mistral：使用 GQA
Gemma：使用 MQA

GQA 在效率和质量之间找到了平衡，已成为大模型的主流选择。

但要注意：MQA/GQA 是模型架构层面的改动，需要在训练时就确定。已训练好的 MHA 模型无法直接转换。

到这里，我们从计算、内存管理、架构三个层面优化了推理效率。还有没有进一步压缩的空间？

补充：其他相关技术

除了上述三大核心技术，还有几种值得了解的优化方法。

KV Cache 量化

把 KV Cache 从 FP16 量化到 INT8 甚至 INT4：

内存占用减少 50%-75%
可能有轻微精度损失
vLLM、TensorRT-LLM 已支持

Speculative Decoding（投机解码）

大模型生成是自回归的，每次只能生成一个 token，是串行瓶颈。

投机解码的思路：用小模型快速"猜"多个 token，再用大模型一次性验证。猜对了直接用，猜错了回退。

在不损失质量的情况下，推理速度提升 2-3 倍
需要小模型和大模型使用相同的分词方式

Sliding Window Attention

限制每个 token 只关注固定窗口内的上下文：

Mistral 使用 4096 的滑动窗口
KV Cache 大小恒定，不随序列长度增长
代价是超出窗口的信息会丢失

技术对比

各技术特点对比

回顾一下这些技术各自解决的问题：

FlashAttention

解决问题：注意力计算的内存访问瓶颈
作用阶段：训练 + 推理
是否需要重新训练：否
主要收益：减少显存峰值，加速计算

PagedAttention

解决问题：KV Cache 的内存碎片化
作用阶段：推理
是否需要重新训练：否
主要收益：提升内存利用率和并发能力

MQA/GQA

解决问题：KV Cache 本身过大
作用阶段：训练 + 推理
是否需要重新训练：是
主要收益：从根源减少 KV Cache 占用

KV Cache 量化

解决问题：KV Cache 精度冗余
作用阶段：推理
是否需要重新训练：否
主要收益：内存占用减少 50%+

场景适用性对比

不同场景下，推荐的技术组合：

高并发在线服务：PagedAttention（首选）+ KV Cache 量化
长上下文应用（RAG、文档问答）：FlashAttention + PagedAttention + Sliding Window Attention
资源受限部署：选用 GQA 架构的模型 + KV Cache 量化
模型训练：FlashAttention（必选）+ GQA 架构（推荐）
低延迟场景：Speculative Decoding + FlashAttention

技术组合建议

这些技术并不互斥，可以叠加使用：

训练阶段：FlashAttention（必选）+ GQA（推荐）
推理阶段：FlashAttention + PagedAttention + KV Cache 量化
长序列场景：上述全部 + Sliding Window Attention

总结

让我们回到开头的问题：如何在有限的显存中，让模型跑得更快、服务更多请求？

这篇文章介绍的四种技术，从不同层面给出了答案：

FlashAttention：优化计算过程，减少内存访问，让每次计算更快。

PagedAttention：优化内存管理，消除碎片浪费，让相同显存服务更多请求。

GQA：优化模型架构，从根源减少 KV Cache，让内存需求本身变小。

量化：优化数据精度，在可接受的精度损失下，进一步压缩内存占用。

如果你在训练模型，FlashAttention 是必选项，架构上考虑 GQA。

如果你在部署推理服务，直接用 vLLM 或 TensorRT-LLM，它们已经集成了大部分优化。

这些技术的出现，让大模型从实验室走向生产环境成为可能。理解它们的原理，有助于在实际工程中做出更合理的决策。

从一行代码到一座桥梁：React Native View 组件在 OpenHarmony 生态中的深度解析与工程实践

大模型推理优化必读：一文吃透 FlashAttention、vLLM 与 GQA 四大核心技术（建议收藏）

引言

显存都去哪了？

技术详解

一、FlashAttention：让计算更快

问题在哪？

FlashAttention 的解法

效果如何？

二、PagedAttention：让内存管理更高效

问题在哪？

操作系统的启发

vLLM 的实现

三、MQA 与 GQA：从架构层面减少 KV Cache

问题在哪？

MQA：激进的共享

GQA：平衡的选择

实际应用

补充：其他相关技术

KV Cache 量化

Speculative Decoding（投机解码）

Sliding Window Attention

技术对比

各技术特点对比

场景适用性对比

技术组合建议

总结

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

服务好的广州太赫兹足疗仪排名

基于Python的招聘数据分析及可视化[python]-计算机毕业设计源码+LW文档

你的RAG为何总是幻觉频发？揭秘生产级RAG架构的7大关键，小白也能变大神！

导师推荐!实力封神的AI论文网站 —— 千笔·专业学术智能体

37岁转行AI大模型还来得及吗？程序员必看攻略，收藏这份学习资源包！