收藏｜2026 最新字节一面真题：吃透 ReAct 框架！Thought、Action、Observation 核心拆解-洪萨配资

面试官：你的项目里写了 AI Agent 实战开发，那结合 2026 大模型开发趋势，聊聊什么是 ReAct 框架？

我：ReAct 是当下工业界主流的 AI Agent 循环执行框架，全称Reasoning and Acting，也是大模型 Agent 落地必备核心架构。核心逻辑就是一套闭环流程：Agent 每轮任务先完成逻辑推理（Thought）、再执行工具动作（Action）、最后接收反馈观测结果（Observation），无限循环迭代，直至完整达成用户目标任务。

面试官：这三个基础概念入门都懂，我重点问深层逻辑：为什么必须保留 Thought 推理环节？直接让大模型输出 Action 工具调用不行吗？

我：emm…… 难道是为了让 Agent 的决策逻辑更直观清晰？

面试官：如果直接去掉 Thought，让 LLM 一次性输出结构化工具调用 JSON，不仅响应更快、还能节省大量 Token 开销，这种极简方案为什么没法落地？会出现哪些致命问题？

我：瞬间卡壳，一时答不上来……

很多转行大模型、自学 Agent 开发的小白，面试遇到这道字节、美团、阿里通用高频八股，基本都会栽跟头。今天 2026 全新完整版解析，从零带你吃透 ReAct 底层原理，搞定面试问答 + 项目落地双重需求，程序员收藏自用不亏！

简要回答

ReAct 和直接让 LLM 输出 Action 的根本差异不是"多了一步"，而是有没有给 LLM 思考的机会。

没有 Thought，LLM 看到任务就直接输出工具调用指令，错误率极高。因为复杂任务需要多步推理，LLM 如果不先"想清楚下一步该做什么、为什么这样做"，就会出现工具选错、参数填错、逻辑跳步的问题。

Thought 的本质是 Chain-of-Thought（CoT）在 Agent 场景的应用。CoT 让 LLM 在回答问题前先写出推理过程，ReAct 让 Agent 在执行动作前先写出决策依据。这不是装饰性的步骤，而是保证 Agent 不出错的核心机制。

面试官最爱问的追问：Thought 会不会浪费 token？会，但这是精度换成本。没有 Thought 的 Agent 在复杂任务下的错误率可能是有 Thought 的 3-5 倍，重试的成本远高于多写几句推理。

ReAct 完整循环流程图

为什么直接输出 Action 会出错

没有 Thought 的 Agent，就像一个不经思考就行动的人，看起来快，但错得也快。

假设任务是"帮我查明天北京到上海的航班，选最便宜的经济舱"。如果让 LLM 直接输出 Action，它可能会这样做：

第一次调用：输出{"tool": "search_flight", "from": "北京", "to": "上海", "date": "明天"}。看起来没问题，但"明天"不是合法的日期格式，API 调用失败。

第二次调用：修正为{"tool": "search_flight", "from": "北京", "to": "上海", "date": "2026-04-24"}。这次成功了，返回 10 个航班。

第三次调用：LLM 看到 10 个航班，直接输出{"tool": "book_flight", "flight_id": "CA1234"}。但它没有比价，选的不是最便宜的，任务失败。

问题出在哪里？LLM 没有机会"停下来想一想"。它看到任务就输出工具调用，看到结果就输出下一个工具调用，中间没有推理过程，所以会出现：

第一，参数格式错误。LLM 不知道 API 要求的日期格式是什么，直接用自然语言"明天"填进去。

第二，逻辑跳步。查到航班后应该先比价，但 LLM 直接跳到订票，因为它没有"想清楚任务的完整步骤"。

第三，目标偏离。任务要求"最便宜的"，但 LLM 没有显式推理"我需要比较价格"，所以随便选了一个。

这就是为什么 ReAct 要加 Thought 步骤。Thought 不是给人看的日志，而是给 LLM 自己看的推理过程。LLM 在 Thought 里写"当前状态是什么、下一步应该做什么、为什么这样做"，这个过程强迫它把任务拆解清楚，然后再输出 Action。

类比一下，直接输出 Action 就像你让一个人"去超市买东西"，他冲进去随便拿了几样就结账，回来发现买错了。ReAct 是让他先列购物清单（Thought），再去拿东西（Action），拿完检查一遍（Observation），确认没问题再结账。

没有 Thought 的 Agent 执行失败场景

ReAct 的三个步骤到底是什么

ReAct 的核心是一个三步循环：Thought、Action、Observation。每一步都有明确的作用，缺一不可。

Thought（推理）：Agent 分析当前状态，决定下一步做什么。

这一步 LLM 输出的是自然语言，不是代码或 JSON。典型的 Thought 长这样：

“当前状态：用户要查明天北京到上海的航班。我需要先确定明天的日期是 2026-04-24，然后调用 search_flight 工具，参数是 from=北京, to=上海, date=2026-04-24。”

Thought 的作用是让 LLM 把推理过程显式写出来。写的过程就是思考的过程，LLM 会检查"我现在知道什么、还缺什么、下一步该做什么"。这个机制来自 Chain-of-Thought，研究表明让 LLM 写出推理步骤可以显著提升复杂任务的准确率。

Action（执行）：Agent 调用工具，执行具体操作。

这一步 LLM 输出的是结构化指令，通常是 JSON 格式的工具调用。典型的 Action 长这样：

{"tool":"search_flight","parameters":{"from":"北京","to":"上海","date":"2026-04-24"}}

Action 是 Thought 的直接结果。因为 LLM 在 Thought 里已经想清楚了"要调用什么工具、参数是什么"，所以 Action 的输出通常是正确的。如果 Thought 写得清楚，Action 就不会出错。

Observation（观察）：Agent 接收工具返回的结果，更新当前状态。

这一步不是 LLM 输出的，而是工具执行后返回的数据。典型的 Observation 长这样：

{"status":"success","flights":[{"id":"CA1234","price":800,"time":"08:00"},{"id":"MU5678","price":650,"time":"10:00"},...]}

Observation 会被送回给 LLM，作为下一轮 Thought 的输入。LLM 看到这个结果后，会在下一个 Thought 里分析"现在我拿到了 10 个航班，需要找出最便宜的，是 MU5678，价格 650 元，接下来应该调用 book_flight"。

这三步形成一个闭环。Thought 决定做什么，Action 去执行，Observation 拿到结果，然后再进入下一轮 Thought。循环会一直跑下去，直到 LLM 在 Thought 里判断"任务已完成，不需要再调用工具了"，此时输出最终答案，循环结束。

ReAct 三步循环的完整执行示例

Thought 的本质是 Chain-of-Thought

Thought 不是 ReAct 发明的新东西，而是 Chain-of-Thought（CoT）在 Agent 场景的应用。

CoT 是 2022 年 Google 提出的一种提示技术，核心思想是让 LLM 在回答问题前先写出推理步骤。比如问"Roger 有 5 个网球，他又买了 2 罐，每罐 3 个球，他现在有多少个球？“，不加 CoT 的 LLM 可能直接输出"10 个”（错了），加了 CoT 的 LLM 会先写"Roger 原来有 5 个，买了 2 罐，每罐 3 个，所以是 2×3=6 个，加起来是 5+6=11 个"，然后输出"11 个"（对了）。

为什么写出推理步骤就能提升准确率？因为 LLM 的推理能力不是"想清楚了再输出"，而是"边输出边推理"。当 LLM 被要求先写推理过程，它在生成每个 token 的时候都在做推理，写完推理过程后，最终答案自然就对了。

ReAct 把这个机制搬到了 Agent 场景。Agent 的任务比数学题复杂得多，需要多步工具调用，每一步都可能出错。如果让 LLM 直接输出工具调用指令，它没有机会"边写边想"，所以容易出错。ReAct 强制 LLM 在每次调用工具前先写 Thought，这个过程就是在做推理，推理完了再输出 Action，准确率自然就高了。

实际项目中，我们测试过有 Thought 和没有 Thought 的 Agent 在同一个任务上的表现。任务是"根据用户需求，从 5 个工具中选择合适的工具完成查询"。没有 Thought 的 Agent，工具选择错误率是 28%，有 Thought 的 Agent，错误率降到 9%。差距的根本原因是，Thought 让 LLM 有机会"想清楚为什么选这个工具"，而不是看到任务就条件反射式地输出工具名。

所以，Thought 不是装饰性的步骤，而是 ReAct 效果好的根本原因。去掉 Thought，ReAct 就退化成了"直接输出 Action"，准确率会大幅下降。

Thought 的作用机制对比

Thought 会不会浪费 token

面试官最爱问的追问：Thought 每次都要写一段推理，token 消耗不是更高吗？

会，但这是精度换成本的合理取舍。

一个典型的 Thought 大约 50-100 tokens，一个 5 步的 Agent 任务，Thought 总共消耗 250-500 tokens。看起来不少，但如果没有 Thought，Agent 的错误率会显著上升，错了就要重试，重试的成本远高于 Thought 的成本。

我们做过一个成本对比实验。任务是"根据用户问题，调用 3-5 个工具完成查询"。两种方案：

方案 A（无 Thought）：直接输出 Action，平均每个任务 4 步完成，每步 200 tokens（包括 prompt 和 response），总消耗 800 tokens。但错误率 25%，错了需要重试，重试平均 2 次，实际消耗 800 × 1.5 = 1200 tokens。

方案 B（有 Thought）：每步先输出 Thought 再输出 Action，平均每步 300 tokens（多了 100 tokens 的 Thought），总消耗 1200 tokens。但错误率只有 8%，几乎不需要重试，实际消耗就是 1200 tokens。

结论是，方案 A 看起来省 token，但算上重试成本，实际消耗和方案 B 差不多。而且方案 B 的成功率更高，用户体验更好。

更重要的是，Thought 不只是为了降低错误率，还有一个隐藏的价值：可调试性。当 Agent 出了问题，你可以看 Thought 的推理过程，快速定位是哪一步的逻辑出错了。没有 Thought，你只能看到 Action 的输入输出，很难判断 LLM 为什么做出这个决策。

所以，Thought 的 token 消耗不是浪费，而是必要的投资。复杂任务下，没有 Thought 的 Agent 根本跑不通，省下的 token 没有意义。

ReAct 和 CoT 的关系

面试官可能会追问：ReAct 和 CoT 有什么区别？

核心区别是，CoT 只推理不行动，ReAct 推理之后还能执行。

CoT 是一种提示技术，用于提升 LLM 在复杂推理任务上的准确率。它的输入是问题，输出是推理过程加最终答案，全程都是文本，没有工具调用。比如"Roger 有 5 个网球…他现在有多少个球？“，CoT 的输出是"Roger 原来有 5 个，买了 2 罐，每罐 3 个，所以是 2×3=6 个，加起来是 5+6=11 个。答案是 11 个。”

ReAct 是一种 Agent 执行框架，用于让 Agent 完成需要多步工具调用的任务。它的输入是任务，输出是工具调用序列加最终答案，中间会调用外部工具。比如"帮我查明天北京到上海的航班"，ReAct 的输出是"Thought: 需要调用 search_flight 工具 → Action: 调用工具 → Observation: 拿到结果 → Thought: 需要比价 → Action: 选择最便宜的 → 最终答案"。

两者的关系是，ReAct 的 Thought 步骤借鉴了 CoT 的思想。CoT 让 LLM 在回答前先推理，ReAct 让 Agent 在行动前先推理。但 ReAct 不只是"CoT + 工具调用"，它还有 Observation 步骤，让 Agent 能根据工具返回的结果动态调整下一步行动，这是 CoT 做不到的。

简单来说，CoT 是"想清楚再回答"，ReAct 是"想清楚再行动，行动后再想下一步"。CoT 是一次性推理，ReAct 是循环推理。

对比总结

对比维度	直接输出 Action	ReAct（有 Thought）
核心机制	LLM 看到任务直接输出工具调用 JSON	LLM 先输出推理过程（Thought），再输出工具调用（Action）
错误率	高（实测 25-30%）	低（实测 8-10%）
Token 消耗	单次低，但重试多，总消耗高	单次高，但几乎不重试，总消耗相当
可调试性	差（只能看输入输出，不知道 LLM 为什么这样做）	好（可以看 Thought 的推理过程，快速定位问题）
适用场景	简单任务（单步工具调用，参数明确）	复杂任务（多步推理，需要根据中间结果调整策略）
和 CoT 的关系	无关	Thought 步骤借鉴了 CoT 的思想

面试总结

面试官问 ReAct 框架，高分回答的结构应该是这样的：

第一步（15秒）：先给核心定义，ReAct 是一种 Agent 执行框架，核心是 Thought-Action-Observation 三步循环。Thought 是推理，Action 是执行，Observation 是观察结果。这三步形成闭环，循环往复直到任务完成。

第二步（45秒）：展开核心机制，重点讲 Thought 的作用。Thought 不是装饰性的步骤，而是保证 Agent 不出错的核心机制。它的本质是 Chain-of-Thought 在 Agent 场景的应用，让 LLM 在行动前先推理，边写边想，推理清楚再输出 Action。没有 Thought，LLM 直接输出工具调用，错误率会显著上升（实测从 8% 升到 28%）。用一个具体场景走一遍完整流程，比如查询航班任务，展示 Thought 如何避免参数错误和逻辑跳步。

第三步（30秒）：主动说局限，Thought 会增加 token 消耗，每步多 50-100 tokens。但这是精度换成本的合理取舍，因为没有 Thought 的 Agent 错误率高，重试的成本远高于 Thought 的成本。复杂任务下，Thought 是必要的投资，不是浪费。

如果面试官追问"Thought 步骤会不会浪费 token"，回答要点是：会增加消耗，但算上重试成本，总消耗相当。而且 Thought 还有隐藏价值，就是可调试性，出了问题可以看推理过程快速定位。

如果面试官追问"ReAct 和 CoT 有什么关系"，回答要点是：ReAct 的 Thought 步骤借鉴了 CoT 的思想，都是让 LLM 先推理再输出。但 ReAct 不只是 CoT + 工具调用，它还有 Observation 步骤，让 Agent 能根据工具返回的结果动态调整下一步行动，这是循环推理，CoT 是一次性推理。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

2、大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

适用人群

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

收藏｜2026 最新字节一面真题：吃透 ReAct 框架！Thought、Action、Observation 核心拆解