2.1 向量基础：Embedding、余弦相似度、欧氏距离、向量检索-洪萨配资

如果说 LLM 是大脑，那向量就是它的「神经信号编码」。人类用文字交流，计算机用数字计算，而Embedding是连接这两个世界的桥梁。不懂向量，就不懂 RAG；不懂 RAG，就没法让 LLM 真正落地到实际业务中。

📑 目录

Embedding（文本嵌入）：文字变数字的魔法
余弦相似度：衡量「方向一致性」
欧氏距离：衡量「直线距离」
向量检索：从语义匹配到实际查询
什么时候用什么度量

Embedding（文本嵌入）：文字变数字的魔法

一句话定义

把任意长度文本转换成固定长度的数字数组（向量）。语义相似的文本，向量在空间中的距离也更近。

本质大白话

Embedding = 文字的 GPS 坐标 想象一个多维空间（比如 1536 维）： 「猫」 → [0.12, -0.34, 0.56, ...] ← 附近聚集着「小狗」「萌宠」 「狗」 → [0.15, -0.31, 0.52, ...] ← 跟「猫」很近！（都是宠物） 「汽车」→ [-0.45, 0.78, -0.23, ...] ← 离「猫」「狗」很远 「公交车」→ [-0.42, 0.75, -0.20, ...] ← 跟「汽车」很近！（交通工具） 关键洞察： Embedding 不是简单的编码，而是把语义关系映射到几何空间！ 语义近 = 空间距短 | 语义远 = 空间距长

Embedding 模型对比

模型	维度	语言	特点	场景
text-embedding-3-small	1536	多语	效果好，付费	通用首选
BGE-large-zh	1024	中英	开源免费效果好	中文首选
M3E-base	768	中文	轻量快速	中文轻量
E5-mistral	1024	多语	多语言强	国际化
Cohere embed-v3	1024	多语	搜索专用	搜索引擎

fromopenaiimportOpenAIimportnumpyasnp client=OpenAI()defget_embedding(text,model="text-embedding-3-small"):response=client.embeddings.create(model=model,input=text)returnresponse.data[0].embedding# 1536维向量# 语义相似的文本，向量接近texts=["今天天气不错","天气很好","Python 编程教程"]embs=[get_embedding(t)fortintexts]defcosine(a,b):returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))print(f"'今天天气不错' vs '天气很好':{cosine(embs[0],embs[1]):.4f}")# ~0.92print(f"'今天天气不错' vs 'Python':{cosine(embs[0],embs[2]):.4f}")# ~0.15

❌ 常见误区

❌ Embedding 模型越大越好 — text-embedding-3-small 很多场景优于大模型
❌ 同一 Embedding 通用所有任务 — 搜索和分类需要不同的 Embedding
❌ 中文必须专用中文模型 — 多语言模型在中文上已经很出色

余弦相似度：衡量「方向一致性」

一句话定义

计算两个向量夹角的余弦值，范围 [-1, 1]。越接近 1 表示方向一致（语义越相似）。

本质大白话

余弦相似度 = 忽略长度，只看方向 两个人朝同一个方向走： A 走了100米，B 走了1000米 方向一样 → 余弦 ≈ 1.0 A 往东走，B 往西走 方向相反 → 余弦 ≈ -1.0 文本场景：方向相同 = 语义相近（不管文章长短） → 这就是为什么余弦成为文本相似度的默认选择！

cos_sim ( A , B ) = A ⋅ B ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ \text{cos\_sim}(A,B) = \frac{A \cdot B}{||A|| \cdot ||B||}cos_sim(A,B)=∣∣A∣∣⋅∣∣B∣∣A⋅B

importnumpyasnpdefcosine_similarity(a,b):returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))vec_cat=get_embedding("可爱的小猫")vec_dog=get_embedding("可爱的狗狗")vec_car=get_embedding("一辆汽车")print(f"猫 vs 狗:{cosine_similarity(vec_cat,vec_dog):.4f}")# ~0.85print(f"猫 vs 车:{cosine_similarity(vec_cat,vec_car):.4f}")# ~0.20

❌ 常见误区

❌ 余弦 > 0.9 就意思一样 — 不同模型阈值不同，不要迷信绝对数值
❌ 余弦适用于所有场景 — 图像特征场景可能需要欧氏距离

欧氏距离：衡量「直线距离」

一句话定义

两个向量在多维空间的直线距离。越小越相似。

余弦 vs 欧氏

余弦	欧氏
关注点	方向	实际距离
受长度影响	否	是
范围	[-1,1]	[0,+∞)
文本场景	默认首选	少数
图像场景	可能失效	常用

importnumpyasnpdefeuclidean(a,b):returnnp.linalg.norm(a-b)# 直观对比short=get_embedding("你好")long_text=get_embedding("你好"*20)print(f"余弦:{cosine_similarity(short,long_text):.4f}")# ~0.95 (方向一样)print(f"欧氏:{euclidean(short,long_text):.4f}")# 可能很大(长度不同)# 结论：文本用余弦，特征考虑欧氏

向量检索：从语义匹配到实际查询

一句话定义

给定查询文本转为向量后，在向量库中找到 Top-K 条最相似记录的过程。RAG 的核心操作。

检索流程

用户提问：「如何优化 MySQL 查询性能？」 ↓ [Embedding 模型] ↓ 查询向量: [0.21, -0.15, 0.33, ...] ↓ ┌────────────────────────────────┐ │ 向量数据库 │ │ doc1 [0.20,-0.14,0.35,...] → 0.012 ★1 │ │ doc2 [0.55, 0.72,-0.11,...] → 0.892 │ │ doc3 [0.22,-0.13,0.31,...] → 0.025 ★2 │ │ doc4 [-0.81,0.33, 0.55,...] → 1.203 │ └────────────────────────────────┘ ↓ 返回 Top-K (doc1, doc3) 作为 LLM 上下文

fromtypingimportListimportnumpyasnpclassVectorRetriever:def__init__(self,embedding_func):self.embed_fn=embedding_func self.vectors=[]self.documents=[]defadd_document(self,text,metadata=None):vec=self.embed_fn(text)self.vectors.append(vec)self.documents.append({"text":text,"metadata":metadataor{}})defsearch(self,query,top_k=5)->List[dict]:q_vec=self.embed_fn(query)scores=[]forvinself.vectors:scores.append(np.dot(q_vec,v)/(np.linalg.norm(q_vec)*np.linalg.norm(v)))top_idx=np.argsort(scores)[::-1][:top_k]return[{"doc":self.documents[i],"score":scores[i]}foriintop_idx]# 使用retriever=VectorRetriever(get_embedding)retriever.add_document("MySQL 索引优化策略：...")retriever.add_document("Redis 缓存使用指南：...")results=retriever.search("数据库太慢了怎么办",top_k=3)

❌ 常见误区

❌ 向量检索 = 完美语义搜索 — 找不到精确关键词匹配（型号编号、专有名词）
❌ Top-K 越大越好 — K 太大引入噪音，K 太小漏信息。一般 3-10 合理
❌ 只要向量就够了 — 生产环境通常需要混合检索（详见 2.2）

什么时候用什么度量？

场景	推荐	原因
文本语义检索	余弦	忽略长度，关注方向
图像特征比对	欧氏	特征幅度有意义
归一化后的向量	两者等效	归一化后余弦=欧氏
异常检测	欧氏	远离聚类中心的点易识别
推荐系统	余弦	关注偏好方向而非强度

📊 本节知识地图

┌────────────────────────────────────────────────────┐ │ 向量基础 — RAG 的地基 │ │ │ │ ┌────────────┐ ┌──────────────────────────┐ │ │ │ Embedding │──→ │ 相似度计算 │ │ │ │ 文本→向量 │ │ 余弦 ★ / 欧氏 ☆ │ │ │ └────────────┘ └──────────┬───────────────┘ │ │ │ │ │ ↓ │ │ ┌──────────────────┐ │ │ │ 向量检索 │ │ │ │ Top-K 返回 │ │ │ └────────┬─────────┘ │ │ ↓ │ │ ┌──────────────────┐ │ │ │ 2.2 RAG体系 │ ← 下节详解 │ │ └──────────────────┘ │ │ │ │ 一句话： │ │ Embedding转数字 → 相似度找最相关 → 检索返回 │ └────────────────────────────────────────────────────┘