news 2026/4/3 15:22:37

面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?

面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?

目录

  • 面试题:LLM中向量为啥用乘法? 注意力机制公式是什么?
    • 先铺垫:LLM里的向量到底是啥?
    • 核心:1个比喻看懂“加法vs乘法”
      • ❶ 用加法:完全看不出相似性
      • ❷ 用乘法(点积):直接算出相似度
    • 为什么向量相似度计算用乘法,这才是核心
    • 3个底层原理:面试时这么说,逻辑拉满
      • 原理1:加法是“融合”,点积是“对齐”(语义层面)
      • 原理2:点积的数学本质——衡量“方向一致性”(数学层面)
      • 原理3:加法会信息稀释,点积聚焦核心(工程层面)
    • 反例:如果LLM用加法会怎样?
    • 面试话术模板:直接背,张口就来
    • 记忆口诀:一次记住不忘记
    • 注意力权重公式解释
      • 最后在乘上V

相信很多同学在准备LLM面试时,都会被这个问题难住:“为什么LLM里计算向量相似性用乘法(点积),而不是加法?”

背结论容易,但要讲清底层逻辑、让面试官眼前一亮,就得把“原理”拆成普通人能听懂的话——今天用1个生活比喻+3个核心原理,帮你一次记住,面试时张口就来。

先铺垫:LLM里的向量到底是啥?

先花10秒搞懂基础:在LLM(大语言模型)中,每个词、句子甚至图片,都会被转换成高维向量(比如768维、1024维)。

你可以把这个向量理解成「语义身份证」:

  • 每一个维度对应一个“语义特征”(比如“是否是水果”“是否可食用”“是否有甜味”);
  • 维度上的数值代表这个特征的“强度”(比如“苹果”的“水果特征”值是0.9,“石头”的是0.01)。

我们用向量做什么?核心是判断两个语义的相似性(比如“苹果”和“香蕉”是不是同类,“我想吃水果”和“给我推荐苹果”是不是匹配)。

问题来了:判断相似性,为啥选乘法(点积),不选加法?

核心:1个比喻看懂“加法vs乘法”

先举个生活例子,帮你秒懂本质:
假设你要找和“小明”相似的人,用两个特征(身高、体重)做向量:

  • 小明向量:[身高180, 体重70]
  • 小李向量:[身高175, 体重65]
  • 小王向量:[身高160, 体重80]

❶ 用加法:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 12:01:16

InstructPix2Pix与Mathtype结合:学术图像处理

InstructPix2Pix与Mathtype结合:学术图像处理 你有没有遇到过这种情况:辛辛苦苦写完了论文,结果发现里面的图表、公式截图看起来特别粗糙,要么分辨率太低,要么背景不协调,要么就是排版后显得特别突兀。想用…

作者头像 李华
网站建设 2026/4/1 16:14:11

文脉定序惊艳效果:舆情监测中同义表述、隐喻表达精准识别案例

文脉定序惊艳效果:舆情监测中同义表述、隐喻表达精准识别案例 1. 智能语义重排序系统概述 「文脉定序」是一款专注于提升信息检索精度的AI重排序平台。它搭载了行业顶尖的BGE语义模型,旨在解决传统索引"搜得到但排不准"的痛点,为…

作者头像 李华
网站建设 2026/3/26 22:34:28

DeepSeek-OCR-2算法解析:视觉因果流技术实现原理

DeepSeek-OCR-2算法解析:视觉因果流技术实现原理 如果你用过传统的OCR工具,可能会发现一个有趣的现象:它们处理文档时,就像一台没有感情的扫描仪,机械地从左上角开始,一行一行地往下扫。这种处理方式在简单…

作者头像 李华
网站建设 2026/3/27 8:34:09

AutoGen Studio效果展示:多智能体协同完成复杂任务

AutoGen Studio效果展示:多智能体协同完成复杂任务 1. 当多个AI助手开始真正协作时,发生了什么 你有没有试过让几个AI助手同时处理一个任务?不是简单地轮流回答问题,而是像一支专业团队那样分工明确、互相配合、主动沟通、共同决…

作者头像 李华
网站建设 2026/3/18 10:05:59

ChatGLM-6B中文场景实战:政务问答系统原型搭建与提示词设计

ChatGLM-6B中文场景实战:政务问答系统原型搭建与提示词设计 1. 引言:当大模型遇见政务服务 想象一下,一位市民想咨询办理居住证需要哪些材料。他打开政府网站,不再需要在一堆政策文件里翻找,而是直接输入问题&#x…

作者头像 李华
网站建设 2026/3/18 12:51:12

FLUX.1创意编程:Processing艺术创作集成方案

FLUX.1创意编程:Processing艺术创作集成方案 最近在玩Processing做数字艺术,总感觉缺了点什么。手绘的图案虽然有趣,但想生成一些更复杂、更具视觉冲击力的动态纹理或背景时,往往需要花费大量时间。直到我尝试将FLUX.1这个强大的…

作者头像 李华