9种RAG架构全解析！从入门到生产，小白程序员也能玩转大模型检索增强生成，告别“一本正经胡说八道“！-洪萨配资

你的聊天机器人自信地告诉顾客，你们的退货政策是90天，但实际上是30天。之后，它还描述了一些你们产品根本不具备的功能。

这就是优秀的演示系统与实际生产系统之间的差距。语言模型即使出错，听起来也很可靠，但在生产环境中，这会迅速造成高昂的成本。

这就是为什么严肃的AI团队会使用RAG的原因。并非因为它时髦，而是因为它能让模型基于真实信息。

大多数人忽略的一点是，RAG 并非只有一种架构。它有多种架构，每种架构都解决不同的问题。选错架构，就会浪费几个月的时间。

本指南详细介绍了在生产环境中实际可行的 RAG 架构。

让我们先来了解一下破布。

什么是 RAG？它为什么如此重要？

在深入探讨架构之前，让我们先明确一下我们要讨论的是什么。

RAG 通过让语言模型在生成响应之前参考外部知识库来优化其输出。RAG并非仅仅依赖模型在训练期间学习到的内容，而是从您的文档、数据库或知识图谱中提取相关的最新信息。

以下是实际操作流程。

当用户提出问题时，您的 RAG 系统首先根据该查询从外部来源检索相关信息。

然后它将原始问题与检索到的上下文结合起来，并将所有内容发送到语言模型。

该模型生成的响应基于实际可验证的信息，而不仅仅是其训练数据。

RAG 解决的实际问题

标准 RAG：从这里开始

标准 RAG 是整个生态系统的“Hello World”。它将检索视为简单的一次性查找。它的存在是为了在无需微调的情况下将模型建立在特定数据之上，但它假设你的检索引擎是完美的。

它最适合低风险环境，在这种环境中，速度比绝对的事实密度更重要。

工作原理：

分块：将文档拆分成易于理解的小文本段。

嵌入：每个片段都被转换成一个向量并存储在数据库（如 Pinecone 或 Weaviate）中。

检索：用户查询被向量化，并使用余弦相似度提取“前 K 个”最相似的片段。

生成：这些片段作为“上下文”输入到 LLM 中，以生成基于实际情况的响应。

实际案例：一家小型创业公司的内部员工手册机器人。用户询问“我们的宠物政策是什么？”，机器人会从人力资源手册中检索相关段落进行回答。

优点：

亚秒级延迟。

计算成本极低。

易于调试和监控。

缺点：

极易受到“噪声”（检索到无关数据块）的影响。

无法处理复杂的多部分问题。

如果检索到的数据有误，则缺乏自我纠正功能。

对话式 RAG：添加记忆

对话式 RAG 解决了“上下文盲点”问题。在标准设置中，如果用户追问“多少钱？”，系统并不知道“它”指的是什么。这种架构增加了一个有状态的记忆层，能够重新理解聊天过程中的每一个对话。

工作原理：

上下文加载：系统存储对话的最后 5-10 轮内容。

查询重写： LLM 获取历史记录 + 新查询，生成“独立查询”（例如，“企业计划的价格是多少？”）。

检索：此扩展查询用于向量搜索。

生成方式：答案是根据新的上下文生成的。

实际示例：一个SaaS公司的客户支持机器人。用户说：“我的API密钥出了问题”，然后接着问：“可以重置一下吗？”系统知道“它”指的是API密钥。

优点：

提供自然、人性化的聊天体验。

避免用户重复输入信息。

缺点：

记忆漂移： 10 分钟前的无关上下文可能会干扰当前的搜索结果。

由于“查询重写”步骤，令牌成本较高。

纠正性RAG（CRAG）：自检器

CRAG 是一种专为高风险环境设计的架构。它引入了一个“决策门”，用于在文档到达生成器之前评估检索到的文档质量。如果内部搜索效果不佳，则会回退到实时网络。

在部署 CRAG 式评估器的团队报告的内部基准测试中，幻觉与简单的基线相比有所下降。

工作原理：

检索：从您的内部矢量存储库中获取文档。

评估：一个轻量级的“评分器”模型为每个文档块分配一个分数（正确、模糊、错误）。

触发门：

正确：前往发电机处。

错误：丢弃数据并触发外部 API（例如 Google 搜索或 Tavily）。

4.综合：利用已验证的内部数据或最新的外部数据生成答案。

实际例子：一个财务顾问机器人。当被问及某个不在 2024 年数据库中的特定股票价格时，CRAG 意识到数据缺失，并从财经新闻 API 获取实时价格。

优点：

显著减少幻觉。

弥合内部数据与真实世界事实之间的差距。

缺点：

延迟显著增加（增加 2-4 秒）。

管理外部API成本和速率限制。

自适应 RAG：根据复杂程度匹配工作量

自适应 RAG 算法堪称“效率之王”。它认识到并非每个查询都需要强大的处理能力。它使用路由机制来判断用户意图的复杂程度，并选择成本最低、速度最快的路径来获取答案。

工作原理：

复杂度分析：一个小型分类器模型负责路由查询。

路径 A（无需检索）：用于问候或 LLM 已掌握的一般知识。

路径 B（标准 RAG）：用于简单的事实查找。

路径 C（多步骤代理）：适用于需要搜索多个来源的复杂分析问题。

实际例子：一个大学助教。如果学生说“你好”，它会直接回应。如果学生问“图书馆什么时候开放？”，它会进行简单的搜索。如果学生问“比较一下过去五年计算机科学专业的学费”，它会触发复杂的分析。

优点：

通过避免不必要的检索，大幅节省成本。

简单查询的最佳延迟。

缺点：

错误分类风险：如果它认为一个难题很简单，它将不会进行搜索。

需要高度可靠的路由模型。

自我批评：能够自我批评的人工智能

Self-RAG 是一种复杂的架构，其模型经过训练，能够批判性地审视自身的推理过程。它不仅检索信息，还会生成“反思标记”，作为对其自身输出的实时审计。

工作原理：

检索：由模型本身触发的标准搜索。

使用标记生成：该模型会生成文本以及特殊标记，例如[IsRel]（这是否相关？）、[IsSup]（此声明是否得到支持？）和[IsUse]（这是否有帮助？）。

自我纠错：如果模型输出一个[NoSup]标记，它会暂停，重新检索并重写句子。

实际示例：一款法律研究工具。该模型针对某个法庭案例提出论点，发现检索到的文件实际上并不支持该论点，于是自动搜索其他先例。

优点：

事实依据最充分。

推理过程具有内置透明度。

缺点：

需要专门的、精细调整的模型（例如，Self-RAG Llama）。

极高的计算开销。

Fusion RAG：多角度，更佳效果

Fusion RAG 解决了“歧义问题”。大多数用户的搜索能力都很差。Fusion RAG 会从多个角度分析单个查询，以确保高召回率。

工作原理：

查询扩展：生成用户问题的 3-5 个变体。

并行检索：搜索向量数据库中的所有变体。

互惠排序融合（RRF）：使用数学公式对结果进行重新排序：

最终排名：在多个搜索结果中排名靠前的文档将被提升到顶部。

实际示例：一位医学研究人员正在搜索“失眠症的治疗方法”。Fusion RAG 还会搜索“睡眠障碍药物”、“非药物失眠疗法”和“CBT-I 方案”，以确保不会遗漏任何相关研究。

优点：

召回率极高（能找到单个查询会遗漏的文档）。

对用户措辞不当具有较强的鲁棒性。

缺点：

搜索成本乘以（3倍-5倍）。

由于需要重新排名计算，延迟较高。

HyDE：生成答案，然后查找相似文档

HyDE 是一种反直觉但又非常巧妙的模式。它认识到“问题”和“答案”在语义上是不同的，并通过首先生成一个“虚假”答案来建立二者之间的桥梁。

工作原理：

假设： LLM为问题写出一个虚假的（假设的）答案。

嵌入：将虚假答案向量化。

检索：利用该向量查找看起来像虚假答案的真实文档。

生成：使用真实文档编写最终回复。

实际示例：用户提出一个模糊的问题，例如“加州那条关于数字隐私的法律”。HyDE 编写了一份关于 CCPA 的虚假摘要，并以此找到CCPA 的实际法律文本，然后提供答案。

优点：

显著提升概念性或模糊性查询的检索效果。

无需复杂的“代理”逻辑。

缺点：

偏见风险：如果“虚假答案”从根本上来说是错误的，那么搜索结果就会被误导。

对于简单的事实查询（例如，“2+2等于多少？”），效率不高。

代理型 RAG：协调专家

它不是盲目地获取文档，而是引入了一个自主代理，该代理会先进行规划、推理，然后决定如何以及在哪里检索信息，最后生成答案。

它将信息检索视为研究，而不是查找。

工作原理：

分析：
代理首先解释用户查询，并确定它是简单的、多步骤的、模糊的还是需要实时数据的。

计划：
它将查询分解成子任务并制定策略。
例如：应该先进行向量搜索？网络搜索？调用 API？还是提出后续问题？

执行：
代理通过调用诸如向量数据库、网络搜索、内部 API 或计算器之类的工具来执行这些步骤。

迭代：
根据中间结果，代理可以改进查询、获取更多数据或验证来源。

生成：
一旦收集到足够的证据，LLM 就会生成一个有理有据、考虑上下文的最终响应。

真实案例：

一位用户问道：
“根据印度法规，金融科技应用程序使用LLM进行贷款审批是否安全？”

代理 RAG 可能：

这是一个涉及监管、政策和风险的问题。

通过网络工具搜索印度储备银行（RBI）指南

检索内部合规文件

核对近期监管动态

综合整理出一份结构清晰、包含引证和注意事项的答案。

传统的红绿灯算法可能只会检索语义相似的文档，并给出一次答案。

优点：

处理复杂、多部分和歧义查询

通过验证和迭代减少幻觉

可以访问实时和外部数据源

更能适应不断变化的环境和需求

缺点：

由于多步骤执行，延迟较高

比简单的 RAG 运行成本更高

需要精心设计工具和代理的协调工作

对于简单的事实性问题来说，这有点小题大做。

GraphRAG：关系推理器

虽然之前的所有架构都是基于语义相似性来检索文档，但 GraphRAG 检索的是实体以及它们之间的显式关系。

它不问“哪些文本看起来很相似”，而是问“哪些内容是相关的，又是如何相关的？”

工作原理：

图构建：
知识被建模为一个图，其中节点是实体（人、组织、概念、事件），边是关系（影响、依赖于、由……资助、由……监管）。

查询解析：
分析用户查询以识别关键实体和关系类型，而不仅仅是关键字。

图遍历：
系统遍历图，找到连接多个实体的有意义的路径。

可选混合检索：
向量搜索通常与图一起使用，以在非结构化文本中定位实体。

生成：
LLM 将发现的关系路径转换为结构化的、可解释的答案。

真实案例：

问：
“美联储的利率决策如何影响科技创业公司的估值？”

GraphRAG 遍历：

美联储 → 利率决策 → 加息

利率上升→影响→风险投资资金的可用性

风险投资减少→影响→早期投资估值

科技创业公司 → 由风险投资公司资助

答案源于关系链，而不是文档相似性。

不同之处：

Vector RAG：
“哪些文档与我的查询相似？”

GraphRAG：
“哪些实体重要，它们之间如何相互影响？”

这使得 GraphRAG 在因果推理、多跳推理和确定性推理方面更加强大。

将 GraphRAG 与结构化分类相结合的系统在确定性搜索任务中达到了接近99% 的准确率。

优点：

擅长因果推理

由于明确的关系，输出结果具有高度可解释性。

在结构化和规则密集型领域表现优异

减少由语义相似性引起的误报

缺点：

构建和维护知识图谱的前期成本很高

图的构建可能需要大量的计算资源。

随着领域变化，进化变得更加困难

对于开放式或对话式问题来说，这有点过度设计了。

如何做出选择（决策框架）

步骤 1：从标准 RAG 开始

说真的。除非你有确凿的证据证明它行不通，否则就从这里开始。标准的RAG方法能迫使你掌握基本功：

高质量文档分段

好的嵌入模型

恰当的评估

监测

如果标准 RAG 机制本身就不好用，增加复杂性也无济于事。你只会得到一个复杂但依然糟糕的系统。

步骤二：仅在需要时添加内存

用户提出后续问题？添加对话式 RAG。否则，跳过。

步骤 3：使架构与实际问题相匹配

关注实际查询，而不是理想化的查询：

查询语句相似且简单明了？那就继续使用标准 RAG 模式。

复杂度差异巨大？那就添加自适应路由。

准确性关乎生死？即使成本较高，也应采用纠正性红黄绿评分系统。医疗保健红黄绿评分系统可将诊断错误率降低 15%。

开放式研究？自我评价还是主动评价？

术语含糊不清？融合 RAG。

需要丰富的关系型数据？如果预算允许，可以使用 GraphRAG 构建图。

第四步：考虑你的限制条件

预算紧张？那就采用标准 RAG 格式，优化检索。避免使用自找 RAG 和代理 RAG。

速度至关重要？选择标准模式还是自适应模式？DoorDash 的语音通话响应延迟为 2.5 秒，但聊天只需低于 1 秒。

准确性至关重要？即使成本较高，也应选择 Corrective 或 GraphRAG。

第五步：融合架构

生产系统结合了多种方法：

标准检索 + 纠错检索：快速标准检索，低置信度时回退到纠错检索。95% 快速检索，5% 已验证。

自适应 + GraphRAG：简单查询使用向量，复杂查询使用图。

融合 + 对话：带有记忆功能的查询变体。

将密集嵌入与稀疏方法（如 BM25）相结合的混合搜索几乎已成为语义含义和精确匹配的标准方法。

简单类比

把LLM想象成一个聪明绝顶但记忆力很差的员工。

标准 RAG 流程就像给他们一个文件柜。他们抽出一个文件夹，阅读后回答问题。

对话式 RAG 指的是同一名员工在会议期间做笔记，这样他们就不会重复问同样的问题。

纠正性 RAG增加了一名高级审核员，在答案发出之前检查“我们真的有证据吗？”。

自适应 RAG是一种管理者用来决定工作量级别的工具。对于简单的问题快速回复，对于复杂的问题进行全面调查。

自我反思是指员工边思考边大声说出来，遇到不确定的事情时会停下来查阅资料。

Fusion RAG以不同的方式向五位同事提出同一个问题，并相信他们达成的共识。

HyDE是指员工先拟定一个理想的答案，然后再搜索与该解释相符的文档。

Agentic RAG是一个由专家组成的团队。法律、财务和运营部门各自负责一部分工作，然后由专人将所有内容整合起来。

GraphRAG使用关系白板而非文档来展示关系。它记录了谁影响谁，以及如何影响彼此。

扼杀项目的危险信号

过度设计：用 Agentic RAG 来处理常见问题解答就像用法拉利来买菜一样，纯属浪费。
忽略检索质量：高召回率的检索器仍然是所有 RAG 系统的核心。无论架构如何，糟糕的检索结果都会导致糟糕的生成结果。
不进行评估：没有衡量就无法改进。从第一天起就跟踪精度、正确性、延迟、成本和满意度。
论文搜寻：仅 2024 年一年，arXiv 上就出现了 1200 多篇 RAG 论文。你不可能全部实现。专注于针对你具体问题的成熟方法。
忽略用户：用户真正需要什么？和他们沟通。许多团队为用户根本不存在的问题构建了复杂的解决方案，却忽略了真正的问题。

小结

RAG并非魔法，它无法修复糟糕的设计或垃圾数据。但如果运用得当，它可以将语言模型从自信的谎言转变为可靠的信息系统。

到 2025 年，RAG 将成为企业的战略要务，为企业安全采用生成式人工智能提供所需的信心层。最好的系统并非最复杂的系统，而是能够在你的限制条件下可靠地为用户提供服务的系统。

从简单入手。事事都要衡量。只有在确凿证据表明需要时才增加复杂性。先掌握基本功。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

【硬核干货】震惊！中国团队推出MinT平台，CPU也能训练万亿参数模型，成本仅1/10，AI下半场入场券来了！