news 2026/6/9 19:57:57

大模型面试题29：稀疏注意力是什么？

张小明

前端开发工程师

1.2k 24

文章封面图 — 大模型面试题29：稀疏注意力是什么？

一、稀疏注意力是什么？

1.原始注意力的“痛点”

想象你在一个有10000人的大派对上，你需要和每个人握手、聊天，才能了解整个派对的情况。
这就像 Transformer 的原始注意力机制：

每个“词”（Token）都要和所有其他词计算关系（注意力分数）。
如果句子长度是L，计算量就是L × L（平方级）。
当L很大时（比如 10000），计算量会爆炸（1亿次运算），速度超慢，还特别占内存。

2.稀疏注意力的“聪明做法”

稀疏注意力的核心思想是：

不是所有人都需要认识，只和重要的人聊天就行！

比如：

只和身边的人聊（局部窗口）：你只关注前后几个人，比如前后 50 人。
只找关键人物聊（全局Token）：派对主持人、明星、领导这些人，你必须和他们聊。
随机认识几个陌生人（随机注意力）：偶尔找几个不认识的人，扩大社交圈。

这样一来，计算量就从L × L降到了L × 常数（比如L × 100），速度大大提升。

3.稀疏注意力的好处

更快：计算量减少，模型训练和推理速度提升。
更省内存：不需要存储巨大的注意力矩阵。
能处理更长的文本：比如一本书、一篇长论文，甚至整个代码库。

二、稍微深入一点：稀疏注意力的常见类型

现在我们用**“派对社交策略”**来类比几种常见的稀疏注意力：

1.局部窗口注意力（Local Window）

做法：每个词只关注它前后w个词（比如w=256）。
类比：在派对上，你只和你桌子附近的人聊天。
优点：简单、高效，适合处理有局部依赖的数据（比如语言、代码）。
缺点：长距离关系可能捕捉不到。

2.全局注意力（Global Attention）

做法：选几个“特殊词”（比如句子开头的[CLS]、标题词），让它们能关注所有词；其他词只关注局部。
类比：派对主持人可以和所有人聊天，其他人只和周围人聊。
优点：既能处理局部依赖，又能捕捉全局关系。
缺点：特殊词的选择需要人工设计。

3.随机注意力（Random Attention）

做法：每个词除了关注局部窗口，还随机选几个其他词关注。
类比：除了和身边人聊天，偶尔随机找几个人认识一下。
优点：增加长距离连接的机会，提高模型的表达能力。
缺点：随机性可能引入噪声。

4.局部敏感哈希注意力（LSH Attention）

做法：用一种“哈希”方法，把相似的词分到同一个“小组”，每个词只和同组的词计算注意力。
类比：派对按兴趣分组（比如“AI组”、“音乐组”），你只和同组的人聊天。
优点：能高效捕捉语义相似的长距离依赖。
缺点：哈希函数的设计比较复杂。

5.低秩投影注意力（Linformer）

做法：用一个小矩阵把 Key 和 Value 压缩，减少计算量。
类比：派对上，你不需要记住每个人的名字，只需要记住几个“代表”的名字。
优点：理论优雅，完全兼容原始 Transformer。
缺点：压缩可能损失一些信息。

三、再深入一点：稀疏注意力的核心优势

1.复杂度对比

原始注意力：O(L²)（平方级）
稀疏注意力：O(L × w)（线性级，w是窗口大小或哈希桶数）

举例：

当L = 10000，原始注意力需要10000 × 10000 = 1亿次运算。
稀疏注意力如果w = 100，只需要10000 × 100 = 100万次运算（快 100 倍）。

2.适用场景

长文本处理：比如一本书、一篇长论文、整个代码库。
高分辨率图像：每个像素点只关注周围区域。
语音识别：长音频序列的局部依赖建模。

四、常见稀疏注意力模型速查表

模型	核心思想	优点	缺点
Longformer	局部窗口 + 全局Token	简单高效，支持超长文本	长距离依赖较弱
BigBird	局部 + 全局 + 随机	兼顾局部和全局，效果好	随机部分可能引入噪声
Reformer	LSH哈希分组	高效捕捉语义相似依赖	哈希函数设计复杂
Linformer	低秩投影压缩	理论优雅，兼容原始架构	压缩可能损失信息
Sparse Transformer	块稀疏 + 混合模式	灵活，可定制稀疏结构	实现复杂

五、总结

小白一句话总结：

稀疏注意力就是让模型“选择性地关注重要信息”，而不是“和所有人都打交道”，从而让模型在处理长文本时更快、更省内存。

技术一句话总结：

稀疏注意力通过限制注意力计算的范围（局部窗口、全局Token、哈希分组等），将复杂度从 O(L²) 降至 O(L × w)，是处理超长序列的关键技术。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/9 20:10:53

大模型面试题30：Padding 的 mask 操作

一、Padding 的 mask 操作是什么？ 1. 为什么需要 Padding？ 想象你在学校交作业，老师要求每个人都交 5 页纸。有的同学写了 3 页，剩下 2 页是空白的（Padding）。有的同学写了 5 页，刚好交满。在…

作者头像

李华

网站建设 2026/6/9 18:45:26

如何将STM32传感器数据显示在VOFA+：快速理解

让STM32的传感器数据“活”起来：用VOFA实现秒级可视化你有没有过这样的经历？在调试一个温湿度采集系统时，串口助手里刷着一行行冰冷的数字：t:25.3,h:60.1 t:25.4,h:60.0 t:25.3,h:59.8 ...眼睛盯着这些数值跳动，却完全…

作者头像

李华

网站建设 2026/6/9 18:25:43

一篇顶刊级文献综述，到底长什么样？

你的文献综述是不是还这样写？ “张三（2021）研究了……李四（2022）指出……王五（2023）认为……” 一段接一段，人名年份轮番上阵，看似“引用规范”，实则逻辑断…

作者头像

李华

网站建设 2026/6/9 20:11:12

百考通AI：一键生成专业文献综述，告别“文献荒”，让你的学术研究赢在起跑线！

还在为撰写文献综述而焦头烂额吗？面对浩如烟海的学术论文，你是否感到无从下手，不知如何梳理脉络、提炼观点、构建框架？别再让文献综述成为你学术路上的绊脚石！百考通AI（https://www.baikaotongai.com&#…

作者头像

李华

网站建设 2026/6/9 20:11:09

百考通AI：你的智能开题报告生成专家，从零到一，一键搞定学术第一步！

还在为开题报告绞尽脑汁吗？面对“研究背景”、“创新点”、“研究方法”等一个个令人头疼的章节，你是否感到无从下笔，甚至怀疑自己选错了专业？别担心，百考通AI（https://www.baikaotongai.com）为…

作者头像

李华

网站建设 2026/6/9 18:54:57

百考通AI：你的智能问卷设计专家，从零到一，30秒生成专业调研问卷！

在市场研究、用户洞察、学术调查的每一个环节，一份设计精良的问卷都是成功的关键。然而，设计一份既能精准捕捉信息、又能保证用户体验的问卷，却常常让人绞尽脑汁——问题怎么问？选项怎么设？逻辑怎么跳转？如…

作者头像

李华