一文吃透大模型 Agent 全部推理范式：从看不懂 ReAct 到全体系落地（技术完整博客）-洪萨配资

一文吃透大模型 Agent 全部推理范式：从看不懂 ReAct 到全体系落地（技术完整博客）

一、先搞懂底层前因：为什么会诞生各类推理范式？

1. 原生大模型天生缺陷

2. 推理范式本质是什么？

3. 层级关系（理清 ReAct 定位）

4. 和上下游技术的绑定关系

二、从零拆解：ReAct（推理 Reasoning + 行动 Acting）彻底讲明白

通俗大厨比喻

完整闭环流程

标准实例演示（已替换北京天气）

ReAct 核心优势

ReAct 短板

标准适用场景

三、基础原型：CoT 思维链（ReAct 的前身，只有推理无行动）

通俗比喻

核心逻辑

优缺点

适用场景

四、多分支择优试错：ToT 思维树 Tree of Thoughts

通俗比喻

核心逻辑

优缺点

适用场景

五、网状互通高阶推理：GoT 思维图 Graph of Thoughts

通俗比喻

核心逻辑

优缺点

适用场景

六、先定全盘计划再执行：Plan-and-Solve 规划执行范式

通俗比喻

核心逻辑

优缺点

适用场景

七、ReAct 强力升级版：Reflexion 自省反思范式

通俗比喻

核心逻辑

优缺点

适用场景

八、自问自答拆解问题：Self-Ask 自我提问范式

通俗比喻

核心逻辑

优缺点

适用场景

九、多轮投票稳正确率：CoT-SC 思维链自洽

通俗比喻

核心逻辑

优缺点

适用场景

十、全范式快速选型对比表

十一、工程落地搭配组合方案（实操直接抄）

十二、完整大模型技术体系闭环复盘

附赠：ReAct 最简可运行 Python 测试代码

归档问答记录

前面我们梳理了 LangChain、AutoGen、CrewAI 等 Agent 工程框架，很多人初次接触完全搞不懂 ReAct 到底是什么、为什么要推理加行动；再加上市面上还有 CoT、ToT、Reflexion 等一大堆思考模式，本篇从头拆解前因、通俗讲透 ReAct 内核，完整盘点所有主流推理范式，统一沿用之前大厨下厨比喻，零基础也能看懂，附带优缺点、场景、代码、技术链路归档。

一、先搞懂底层前因：为什么会诞生各类推理范式？

1. 原生大模型天生缺陷

没加任何思考约束的大模型，收到问题习惯一步直接吐出最终答案，漏洞非常明显：

复杂计算题、多步骤任务容易逻辑断裂，凭空编造答案（AI 幻觉）；
不会自主判断什么时候需要查资料、开计算器、读本地文档，只依赖训练时记住的静态知识；
长任务一旦某一步思考出错，没有回头修正、重新试错的能力；
AI 思考过程完全黑盒，人看不到它怎么推导，出错后很难调试排查。

2. 推理范式本质是什么？

不靠重新训练、不改模型权重，只用一段提示词强制规定 AI 输出思考格式，倒逼 AI 把内心拆解、判断、动手操作、自我校验的全过程明文写出来。简单说：范式 = 给 AI 定一套标准 “思考写字模板”，让 AI 从 “张口就答” 变成 “先想、再做、再核对”。

3. 层级关系（理清 ReAct 定位）

CoT：只会脑子里分步想，不能动手调用工具（纯思考，无行动）
ReAct：在 CoT 基础上加行动环节，一边思考一边调用工具拿真实数据（思考 + 行动结合，工业 Agent 标配）
ToT/GoT/Reflexion 等：都是 ReAct/CoT 的升级变种，适配超高难度、复盘、多分支场景

4. 和上下游技术的绑定关系

上游：蒸馏 / 量化缩小模型体积、LoRA/SFT 调教对话风格、RAG 存入私有知识库；
中层核心：推理范式（决定 AI 拿到信息后怎么思考解题，ReAct 是工具型智能体核心）；
下游外壳：LangGraph/AutoGen/CrewAI 框架负责循环调度、工具封装、多角色对话协作。

二、从零拆解：ReAct（推理 Reasoning + 行动 Acting）彻底讲明白

很多人卡在这里：分不清 CoT 和 ReAct 的核心差别，一句话区分： CoT = 只在脑子里推演，全程不动手查东西； ReAct = 想一步，能动手操作一步，拿到真实反馈再继续想。

通俗大厨比喻

CoT 做法：闭着眼回忆菜谱，脑子里顺一遍洗菜、切菜、翻炒全过程，凭记忆直接出锅； ReAct 做法：

心里思考（Reasoning）：我要做番茄炒蛋，家里有没有番茄？不确定；
动手行动（Acting）：打开冰箱查看食材（对应 AI 调用工具：天气 / 计算器 / 文档检索 / 搜索）；
拿到观察结果（Observation）：冰箱只有鸡蛋，没有番茄；
再次推理：没有番茄换成青椒炒蛋，重新规划步骤；循环往复，直到信息足够再出成品菜。

完整闭环流程

Thought（推理思考）→ Action（执行工具动作）→ Observation（工具返回真实结果）→ 新一轮Thought循环 → 信息充足输出Final Answer

标准实例演示（已替换北京天气）

提问：2026 年 6 月 14 日北京气温多少？ Thought：我自身记不住实时天气，必须调用天气查询工具获取准确数据 Action：get_weather (city="北京",date="2026-06-14") Observation：北京当日 20~29℃，晴天，东南风 3 级，空气质量优 Thought：数据完整可靠，可以整理文字回复用户 Final Answer：2026 年 6 月 14 日北京气温 20 至 29℃，天气晴朗，东南风 3 级，空气质量优

ReAct 核心优势

大幅压制幻觉：所有结论依托外部真实数据，不再靠模型记忆瞎编；
通用适配所有工具：联网搜索、RAG 知识库、代码运行、数据库、API 接口全部兼容；
工程兼容性拉满：LangGraph、AutoGen、CrewAI、Dify 所有 Agent 框架原生内置支持；
上手门槛适中，仅提示词改造即可启用，无需微调模型。

ReAct 短板

单线顺序推导，不会同时并行试多条解决方案；
超长复杂任务容易陷入无限循环重复调用同一个工具；
没有自带自我复盘纠错机制，一轮做完对错无法自查。

标准适用场景

市面 90% 落地 AI 智能体：企业知识库问答、联网调研、代码编写调试、办公自动化、本地文件解析、机器人对话。

三、基础原型：CoT 思维链（ReAct 的前身，只有推理无行动）

通俗比喻

闭脑回忆完整做菜步骤，全程不看食材、不翻菜谱，纯靠记忆分步脑补流程。全称 Chain-of-Thought，2022 谷歌提出，第一个让 AI 分步思考的范式。

核心逻辑

纯线性单链条内心推演，无任何工具调用环节：问题→步骤 1→步骤 2→步骤 3→最终答案示例计算：(125-25)×4 Thought1：括号内 125 减 25 等于 100 Thought2：100 乘以 4 结果为 400 Final Answer：400

优缺点

✅ 零成本启用，一句Let's think step by step即可生效；简单数学、文本理解效果提升明显；不用对接任何工具 ❌ 无法获取实时、私有外部数据，幻觉严重；一步思考错误全盘崩盘；不能搭配检索、计算器等工具

适用场景

简单计算题、短文阅读理解、无资料依赖的纯逻辑简答。

四、多分支择优试错：ToT 思维树 Tree of Thoughts

通俗比喻

一道创新菜同时设计三套调味方案，小份试吃打分，淘汰难吃路线，优质方案继续细化优化，不行就退回上一步换思路。

核心逻辑

打破 CoT/ReAct 单条链路，每一步生成多条平行思考分支，打分筛选，低分丢弃、高分延伸，支持回溯重来；可嵌套 ReAct 实现分支内工具调用。

优缺点

✅ 超高难度推理能力碾压 CoT / 原生 ReAct；支持回溯改错；奥数、博弈、复杂规划精度极高 ❌ Token、算力消耗翻倍，速度慢；实现复杂，普通业务 Agent 很少单独使用

适用场景

数学竞赛、高难度算法题、项目方案规划、棋局博弈、多约束复杂决策。

五、网状互通高阶推理：GoT 思维图 Graph of Thoughts

通俗比喻

后厨多道菜同步制作，不同菜品的火候、调味技巧互相借鉴，A 方案半成品可以合并优化 B 方案，分支不再是简单上下级树形关系。

核心逻辑

ToT 树结构升级为有向图，推理链路可交叉、合并、双向传递信息，适配极度错综复杂的多维度任务。

优缺点

✅ 当前推理能力理论天花板，多业务融合统筹能力最强 ❌ 算力开销最大、部署难度极高，仅限科研与头部大企业项目，个人开发者几乎不用

适用场景

大型系统架构设计、多业务集群统筹、复杂科研实验、超大尺度多模态任务。

六、先定全盘计划再执行：Plan-and-Solve 规划执行范式

通俗比喻

办宴席先写完整菜单、备菜时序、分工耗时（全局总计划），之后严格按清单一步步做菜，不临时大变方向；ReAct 是走一步看一步，这个是先画完整地图再赶路。

核心逻辑

两大固定阶段：

Plan 阶段：一次性拆解全部子任务，输出完整全局步骤；
Solve 阶段：按计划逐个子任务执行，子步骤内部可以套 ReAct 调用工具。

优缺点

✅ 超长任务不容易跑偏；步骤可控可人工修改审核；长文档、大型项目稳定性优于原生 ReAct ❌ 开局计划一旦写错，后续全部跟着出错；随机突发情况应变灵活性差

适用场景

万字报告撰写、完整软件开发流水线、大规模市场调研、批量多步骤自动化任务。

七、ReAct 强力升级版：Reflexion 自省反思范式

通俗比喻

一整道菜做完先自我试吃复盘，记录哪里咸、火候不足、步骤遗漏，带着问题总结重新优化复刻；也可以每小步操作完微型反思（ReflAct 变体）。

核心逻辑

在 ReAct/Plan-and-Solve 完整流程结束后，新增独立自省环节：

跑完一轮思考 + 行动拿到结果；
AI 自我批判：工具调用冗余、逻辑漏洞、信息缺失、回答错误；
携带反思总结重新迭代一轮优化输出。

优缺点

✅ 大幅降低错误、减少无效工具请求；迭代一次比一次精准；直接嵌套改造现有 ReAct 代码即可升级 ❌ 每轮多一轮思考，token 耗时增加；简单小任务使用性价比很低

适用场景

高精度代码调试、财务合规分析、严谨文书撰写、数据校验类智能体。

八、自问自答拆解问题：Self-Ask 自我提问范式

通俗比喻

拿到陌生菜谱，不停向自己抛出小问题：要什么食材？油温多少？腌制多久？逐个自问自答拆分大难题。

核心逻辑

AI 不硬推答案，主动生成子问题逐个击破，子问题过程中可以嵌入工具调用，最后汇总所有子答案输出完整结果。示例：如何本地部署 Qwen 量化模型？ Self-Ask1：最低需要多少显存？→16G 显卡起步 Self-Ask2：主流量化工具是什么？→AWQ、GPTQ Self-Ask3：Ollama 运行指令？→ollama pull qwen2:7b 最后整合所有信息给出完整教程

优缺点

✅ 模糊开放问题拆解能力强，逻辑清晰，幻觉少于纯 CoT ❌ 步骤繁琐拉长响应时间；工具协同流畅度不如原生 ReAct

适用场景

科普教程、开放式调研、模糊需求拆解类任务。

九、多轮投票稳正确率：CoT-SC 思维链自洽

通俗比喻

同一道菜让三位厨师独立分步制作，三份成品对比，选用口味最统一的一套做法作为最终标准。

核心逻辑

同一个问题，模型独立生成 N 条完全不同的 CoT 推理链路，多条答案投票，多数一致结果定为最终输出；无行动工具能力，纯内部推理。

优缺点

✅ 数学、考试计算题准确率大幅提升，抵消单次推理偶然失误 ❌ 算力成本翻 N 倍；完全不能搭配搜索、文档等外部工具

适用场景

公考行测、数学考试、纯数值计算、高正确率要求的闭卷答题。

十、全范式快速选型对比表

推理范式	核心特点	有无工具调用能力	推理精度	速度 & Token 成本	新手友好度	首选落地场景
CoT	单线内心分步思考，只有推理无行动	❌	中	中	★★★★★	简单数学、纯文本简答
ReAct	推理 + 行动循环交替，标准工具交互底座	✅行业标配	中高	中	★★★★	90% 通用 Agent、RAG、检索办公自动化
ToT	多分支试错，支持回溯择优	✅可嵌套 ReAct	极高	高（慢、费 token）	★★☆	奥数、博弈、复杂方案规划
GoT	网状多链路互通融合推理	✅	行业天花板	极高	★☆	科研、大型政企统筹项目
Plan-and-Solve	全局先出完整计划，再分步执行	✅计划内套行动	高	中慢	★★★☆	长报告、整套软件开发、大型调研
Reflexion	ReAct 执行后自我复盘纠错迭代	✅ReAct 增强版	高且越迭代越稳	中慢	★★★	代码调试、合规财务、高精度文书
Self-Ask	AI 自问自答拆分大问题	✅子问题可调用工具	中高	慢	★★★	模糊提问、教程科普、需求拆解
CoT-SC	多套 CoT 答案投票择优	❌	极高	很高（多轮生成）	★★☆	考试、纯数值计算题

十一、工程落地搭配组合方案（实操直接抄）

新手本地最低成本 Agent：Ollama 量化 Qwen 模型 + LangGraph 框架 + 原生 ReAct（平衡简单、稳定、够用）
代码开发、高精度排错场景：底层 ReAct 循环 + Reflexion 自省复盘，搭配 AutoGen 多角色协作
长篇报告、整套软件工程项目：Plan-and-Solve 输出顶层方案，每一个子任务内部跑 ReAct 调用工具
数学竞赛、高难度推理题：ToT 多分支推演 + CoT-SC 投票双重拉高准确率
企业合规知识库问答：ReAct 调用 LlamaIndex 读取文档 + Reflexion 校验引用来源，杜绝虚假引用

十二、完整大模型技术体系闭环复盘

模型瘦身层：蒸馏、量化、剪枝（第一篇博客内容，把大模型缩小适配本地电脑）
模型调教层：基座预训练 → SFT 有监督微调 → LoRA 轻量微调 → DPO 人类偏好对齐（教会模型好好说话）
知识增强层：RAG 向量知识库，灌入企业私有文档、实时资料
AI 思考内核层（本文）：CoT/ReAct/ToT/Reflexion 等推理范式，决定 AI 怎么分析、思考、动手干活
工程调度外壳层：LangGraph/AutoGen/CrewAI/Dify，负责循环、多角色、工具封装、接口发布

一句话总结：大模型只是空白大脑；微调教会它规范对话；RAG 给它专属参考资料；ReAct 是让 AI 从只会聊天变成能动手办事的核心基石；各类衍生范式用来拔高特殊场景精度；Agent 框架提供运行平台；蒸馏量化让整套体系能在普通家用电脑离线跑起来。

附赠：ReAct 最简可运行 Python 测试代码

from langchain.agents import create_react_agent, AgentExecutor from langchain_openai import ChatOpenAI from langchain.tools import CalculatorTool from langchain.prompts import PromptTemplate # 对接本地Ollama部署的Qwen2-7B量化模型 llm = ChatOpenAI(model="qwen2:7b", base_url="http://127.0.0.1:11434/v1", api_key="dummy") tools = [CalculatorTool()] # 标准ReAct提示词模板，强制思考+行动格式 prompt = PromptTemplate.from_template(""" 严格按照ReAct格式回答问题： Thought:写下你的内心推理思考 Action:工具名称(参数内容) Observation:工具返回的真实结果 循环往复，信息足够后输出Final Answer 可用工具：{tools} 用户问题：{input} 思考记录区：{agent_scratchpad} """) # 初始化ReAct智能体 agent = create_react_agent(llm, tools, prompt) executor = AgentExecutor(agent=agent, tools=tools, verbose=True, max_iterations=5) # 测试计算任务 result = executor.invoke({"input":"(456+144)*22等于多少"}) print(result["output"])

开启verbose=True会完整打印每一轮 Thought→Action→Observation 循环，直观看清 ReAct“思考 + 行动” 全过程。

归档问答记录

大模型 Agent 主流推理范式有哪些？共 8 套成熟范式：CoT、ReAct、ToT、GoT、Plan-and-Solve、Reflexion、Self-Ask、CoT-SC；ReAct 是工具型智能体工业标准，CoT 是所有推理范式的基础原型。
ReAct 里的推理（Reasoning）和行动（Acting）分别是什么？推理 Reasoning：AI 内心分析判断，思考缺什么信息、要不要调用工具、调用哪个工具；行动 Acting：AI 执行外部操作，比如查天气、运行计算器、读取文档、联网搜索、调用 API；二者循环交替就是 ReAct 独有的核心逻辑，区别于只思考不动手的 CoT。
各推理范式适用场景、优缺点汇总文中表格 + 分章节已逐条拆解，简单速记：通用干活用 ReAct；纯做题用 CoT/CoT-SC；难题多试路用 ToT；写大方案先 Plan；追求零错误加 Reflexion。

一、先搞懂底层前因：为什么会诞生各类推理范式？

1. 原生大模型天生缺陷

2. 推理范式本质是什么？

3. 层级关系（理清 ReAct 定位）

4. 和上下游技术的绑定关系

二、从零拆解：ReAct（推理 Reasoning + 行动 Acting）彻底讲明白

通俗大厨比喻

完整闭环流程

标准实例演示（已替换北京天气）

ReAct 核心优势

ReAct 短板

标准适用场景

三、基础原型：CoT 思维链（ReAct 的前身，只有推理无行动）

通俗比喻

核心逻辑

优缺点

适用场景

四、多分支择优试错：ToT 思维树 Tree of Thoughts

通俗比喻

核心逻辑

优缺点

适用场景

五、网状互通高阶推理：GoT 思维图 Graph of Thoughts

通俗比喻

核心逻辑

优缺点

适用场景

六、先定全盘计划再执行：Plan-and-Solve 规划执行范式

通俗比喻

核心逻辑

优缺点

适用场景

七、ReAct 强力升级版：Reflexion 自省反思范式

通俗比喻

核心逻辑

优缺点

适用场景

八、自问自答拆解问题：Self-Ask 自我提问范式

通俗比喻

核心逻辑

优缺点

适用场景

九、多轮投票稳正确率：CoT-SC 思维链自洽

通俗比喻

核心逻辑

优缺点

适用场景

十、全范式快速选型对比表

十一、工程落地搭配组合方案（实操直接抄）

十二、完整大模型技术体系闭环复盘

附赠：ReAct 最简可运行 Python 测试代码

归档问答记录

让老旧Mac焕发新生的OpenCore Legacy Patcher：从被遗弃到重获新生的完整指南

专门把视频里焊死的硬字幕去掉，不会糊成马赛克，处理完还是原片分辨率

5分钟搞定！IwaraDownloadTool终极教程：免费批量下载Iwara视频的完整指南

AlienFX Tools：如何用500KB工具替代臃肿的Alienware控制中心

3分钟搞定！APK-Installer：Windows上安装安卓应用的终极完整指南

独立开发者的 3D 资产生成：一套轻量级工作流实战