面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?
目录
- 面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?
- 先铺垫:LLM里的向量到底是啥?
- 核心:1个比喻看懂“加法vs乘法”
- ❶ 用加法:完全看不出相似性
- ❷ 用乘法(点积):直接算出相似度
- 为什么向量相似度计算用乘法,这才是核心
- 3个底层原理:面试时这么说,逻辑拉满
- 原理1:加法是“融合”,点积是“对齐”(语义层面)
- 原理2:点积的数学本质——衡量“方向一致性”(数学层面)
- 原理3:加法会信息稀释,点积聚焦核心(工程层面)
- 反例:如果LLM用加法会怎样?
- 面试话术模板:直接背,张口就来
- 记忆口诀:一次记住不忘记
- 注意力权重公式解释
- 最后在乘上V
相信很多同学在准备LLM面试时,都会被这个问题难住:“为什么LLM里计算向量相似性用乘法(点积),而不是加法?”
背结论容易,但要讲清底层逻辑、让面试官眼前一亮,就得把“原理”拆成普通人能听懂的话——今天用1个生活比喻+3个核心原理,帮你一次记住,面试时张口就来。
先铺垫:LLM里的向量到底是啥?
先花10秒搞懂基础:在LLM(大语言模型)中,每个词、句子甚至图片,都会被转换成高维向量(比如768维、1024维)。
你可以把这个向量理解成「语义身份证」:
- 每一个维度对应一个“语义特征”(比如“是否是水果”“是否可食用”“是否有甜味”);
- 维度上的数值代表这个特征的“强度”(比如“苹果”的“水果特征”值是0.9,“石头”的是0.01)。
我们用向量做什么?核心是判断两个语义的相似性(比如“苹果”和“香蕉”是不是同类,“我想吃水果”和“给我推荐苹果”是不是匹配)。
问题来了:判断相似性,为啥选乘法(点积),不选加法?
核心:1个比喻看懂“加法vs乘法”
先举个生活例子,帮你秒懂本质:
假设你要找和“小明”相似的人,用两个特征(身高、体重)做向量:
- 小明向量:[身高180, 体重70]
- 小李向量:[身高175, 体重65]
- 小王向量:[身高160, 体重80]