news 2026/4/3 15:22:37

面试题：LLM中向量为啥用乘法？注意力机制公式是什么？

张小明

前端开发工程师

1.2k 24

文章封面图 — 面试题：LLM中向量为啥用乘法？注意力机制公式是什么？

面试题：LLM中向量为啥用乘法？注意力机制公式是什么？

目录

面试题：LLM中向量为啥用乘法？注意力机制公式是什么？
- 先铺垫：LLM里的向量到底是啥？
- 核心：1个比喻看懂“加法vs乘法”
- - ❶ 用加法：完全看不出相似性
  - ❷ 用乘法（点积）：直接算出相似度
- 为什么向量相似度计算用乘法，这才是核心
- 3个底层原理：面试时这么说，逻辑拉满
- - 原理1：加法是“融合”，点积是“对齐”（语义层面）
  - 原理2：点积的数学本质——衡量“方向一致性”（数学层面）
  - 原理3：加法会信息稀释，点积聚焦核心（工程层面）
- 反例：如果LLM用加法会怎样？
- 面试话术模板：直接背，张口就来
- 记忆口诀：一次记住不忘记
- 注意力权重公式解释
- - 最后在乘上V

相信很多同学在准备LLM面试时，都会被这个问题难住：“为什么LLM里计算向量相似性用乘法（点积），而不是加法？”

背结论容易，但要讲清底层逻辑、让面试官眼前一亮，就得把“原理”拆成普通人能听懂的话——今天用1个生活比喻+3个核心原理，帮你一次记住，面试时张口就来。

先铺垫：LLM里的向量到底是啥？

先花10秒搞懂基础：在LLM（大语言模型）中，每个词、句子甚至图片，都会被转换成高维向量（比如768维、1024维）。

你可以把这个向量理解成「语义身份证」：

每一个维度对应一个“语义特征”（比如“是否是水果”“是否可食用”“是否有甜味”）；
维度上的数值代表这个特征的“强度”（比如“苹果”的“水果特征”值是0.9，“石头”的是0.01）。

我们用向量做什么？核心是判断两个语义的相似性（比如“苹果”和“香蕉”是不是同类，“我想吃水果”和“给我推荐苹果”是不是匹配）。

问题来了：判断相似性，为啥选乘法（点积），不选加法？

核心：1个比喻看懂“加法vs乘法”

先举个生活例子，帮你秒懂本质：
假设你要找和“小明”相似的人，用两个特征（身高、体重）做向量：

小明向量：[身高180, 体重70]
小李向量：[身高175, 体重65]
小王向量：[身高160, 体重80]

❶ 用加法：

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/4/1 12:01:16

InstructPix2Pix与Mathtype结合：学术图像处理

InstructPix2Pix与Mathtype结合：学术图像处理你有没有遇到过这种情况：辛辛苦苦写完了论文，结果发现里面的图表、公式截图看起来特别粗糙，要么分辨率太低，要么背景不协调，要么就是排版后显得特别突兀。想用…

作者头像

李华

网站建设 2026/4/1 16:14:11

文脉定序惊艳效果：舆情监测中同义表述、隐喻表达精准识别案例

文脉定序惊艳效果：舆情监测中同义表述、隐喻表达精准识别案例 1. 智能语义重排序系统概述「文脉定序」是一款专注于提升信息检索精度的AI重排序平台。它搭载了行业顶尖的BGE语义模型，旨在解决传统索引"搜得到但排不准"的痛点，为…

作者头像

李华

网站建设 2026/3/26 22:34:28

DeepSeek-OCR-2算法解析：视觉因果流技术实现原理

DeepSeek-OCR-2算法解析：视觉因果流技术实现原理如果你用过传统的OCR工具，可能会发现一个有趣的现象：它们处理文档时，就像一台没有感情的扫描仪，机械地从左上角开始，一行一行地往下扫。这种处理方式在简单…

作者头像

李华

网站建设 2026/3/27 8:34:09

AutoGen Studio效果展示：多智能体协同完成复杂任务

AutoGen Studio效果展示：多智能体协同完成复杂任务 1. 当多个AI助手开始真正协作时，发生了什么你有没有试过让几个AI助手同时处理一个任务？不是简单地轮流回答问题，而是像一支专业团队那样分工明确、互相配合、主动沟通、共同决…

作者头像

李华

网站建设 2026/3/18 10:05:59

ChatGLM-6B中文场景实战：政务问答系统原型搭建与提示词设计

ChatGLM-6B中文场景实战：政务问答系统原型搭建与提示词设计 1. 引言：当大模型遇见政务服务想象一下，一位市民想咨询办理居住证需要哪些材料。他打开政府网站，不再需要在一堆政策文件里翻找，而是直接输入问题&#x…

作者头像

李华

网站建设 2026/3/18 12:51:12

FLUX.1创意编程：Processing艺术创作集成方案

FLUX.1创意编程：Processing艺术创作集成方案最近在玩Processing做数字艺术，总感觉缺了点什么。手绘的图案虽然有趣，但想生成一些更复杂、更具视觉冲击力的动态纹理或背景时，往往需要花费大量时间。直到我尝试将FLUX.1这个强大的…

作者头像

李华