2025年 AI 智能体企业级落地现状报告-洪萨配资

LangChain调查了 1300 多名专业人士，涵盖工程师、产品经理、业务负责人及企业高管，旨在揭示 AI 智能体的发展现状。让我们深入解读数据，剖析如今 AI 智能体的应用（或未被应用）情况。

1. 引言

步入 2026 年，各组织已不再纠结是否要构建智能体，而是聚焦于如何可靠、高效且大规模地部署它们。LangChain 通过对 1300 多名专业人士的调研，了解到他们在 AI 智能体应用场景优化及智能体工程挑战应对方面的进展。

1.1 关键发现

生产落地势头强劲：57% 的受访者表示其所在组织已将智能体投入生产，大型企业在采用率方面处于领先地位。

质量是生产落地的关键瓶颈：32% 的受访者将质量列为首要障碍，而成本担忧较去年有所下降。

可观测性成为必备基础：近 89% 的受访者已为其智能体部署可观测性方案，普及率高于评估方案（52%）。

多模型并行成为常态：OpenAI 的 GPT 模型占据主导地位，但 Gemini、Claude 及开源模型的采用率也显著提升，微调尚未得到广泛应用。

最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，其中算法、工程应用类人才需求最为紧迫！

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料（可白嫖）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

2. 核心洞察

2.1 什么是智能体工程？

智能体工程是将大型语言模型（LLMs）整合为可靠系统的迭代过程。由于智能体具有非确定性，我们认为工程师需要通过快速迭代来优化和提升智能体质量。

2.2 大型企业引领采用潮流

超过半数（57.3%）的受访者表示其所在组织已在生产环境中运行智能体，另有 30.4% 的组织正在积极开发智能体，并制定了明确的部署计划。

这与去年的调查结果相比有明显增长，去年仅有 51% 的受访者表示已将智能体投入生产。各组织正从概念验证阶段迈向规模化生产，如今大多数组织面临的问题已不再是 “是否要部署智能体”，而是 “如何部署” 以及 “何时部署”。

2.2.1 贵公司目前是否已将智能体投入生产？

2.2.2 规模增长带来哪些变化？

员工规模 1 万人以上的组织：67% 已将智能体投入生产，24% 正在积极开发并计划部署。

员工规模不足 100 人的组织：50% 已将智能体投入生产，36% 正在积极开发。

这表明大型组织从试点到构建稳定系统的推进速度更快，这可能得益于其在平台团队、安全性及可靠性基础设施方面的更大投入。

2.2.3 不同规模公司的智能体生产落地情况

2.3 主要智能体应用场景

客户服务成为最常见的智能体应用场景（26.5%），研究与数据分析紧随其后（24.4%）。这两大场景合计占所有主要智能体部署案例的一半以上。

2.3.1 您的主要智能体应用场景是什么？

客户服务：26.5%

研究与数据分析：24.4%

内部生产力提升：17.7%

代码生成：9.8%

内容生成：9.0%

销售 / 营销自动化：6.0%

其他：6.7%

客户服务场景的高占比表明，各团队正逐渐将智能体直接面向客户，而非仅用于内部场景。与此同时，智能体在内部场景的价值仍十分显著，18% 的受访者表示使用智能体实现内部工作流自动化，以提升员工效率。

研究与数据分析场景的普及进一步印证了如今智能体的核心优势：整合海量信息、跨来源推理以及加速知识密集型任务。

值得注意的是，今年受访者选择的应用场景更加多样化（每位受访者仅可选择一个主要场景），这表明智能体的应用已不再局限于少数早期场景，而是向更多领域拓展。

2.3.2 规模增长带来哪些应用场景变化？

在员工规模 1 万人以上的组织中，内部生产力提升成为首要应用场景（26.8%），客户服务（24.7%）和研究与数据分析（22.2%）紧随其后。大型企业可能更倾向于先通过智能体提升内部团队效率，再逐步（或同时）将智能体部署给终端用户。

2.4 落地生产的最大障碍

与去年的调查结果一致，质量仍是智能体落地生产的最大障碍。今年，三分之一的受访者将质量列为首要瓶颈，这包括输出的准确性、相关性、一致性，以及智能体维持适当语气、遵守品牌或政策准则的能力。

2.4.1 您在将智能体投入生产过程中面临的最大障碍是什么？

输出质量：32.9%

延迟 / 响应时间：20.1%

安全与合规：16.0%

部署基础设施：13.9%

成本管理：12.8%

其他：4.2%

延迟已成为第二大挑战（20%）。随着智能体被应用于客户服务、代码生成等面向客户的场景，响应时间已成为用户体验的关键因素。这也反映了各团队在质量与速度之间的权衡，功能更强大、需多步骤处理的智能体虽能提供更高质量的输出，但响应速度往往较慢。

相比之下，成本已不再是往年那样受关注的问题。模型价格的下降和效率的提升，使得各组织的关注点从单纯的支出转向如何让智能体更高效、更快速地发挥作用。

2.4.2 规模增长带来哪些障碍变化？

在员工规模 2000 人以上的企业中，质量仍是首要障碍，但安全已成为第二大关注点（24.9% 的受访者提及），超过了延迟，延迟更常被小型组织列为挑战。

2.4.3 不同规模公司面临的智能体生产落地障碍

对于员工规模 1 万人以上的组织，书面反馈显示，智能体生成输出时的幻觉问题和一致性问题是确保质量的最大挑战。许多组织还提到，在上下文工程及大规模上下文管理方面仍面临持续困难。

2.5 智能体的可观测性

对多步骤推理链和工具调用进行追踪的能力，已成为智能体的必备基础。89% 的组织已为其智能体部署了某种形式的可观测性方案，其中 62% 具备详细追踪功能，可查看智能体的每个步骤和工具调用情况。

2.5.1 您是否已为智能体部署可观测性方案？

是，可追踪智能体的每个步骤和工具调用：62.4%

是，但仅具备基础日志 / 指标：26.4%

否：11.2%

在已将智能体投入生产的受访者中，可观测性的普及率更高：94% 已部署某种形式的可观测性方案，71.5% 具备完整的追踪能力。这揭示了智能体工程的一个基本事实：若无法了解智能体的推理过程和行为，团队就无法可靠地排查故障、优化性能，也无法赢得内部和外部利益相关者的信任。

2.5.2 已将智能体投入生产的情况下，您是否已部署可观测性方案？

是，可追踪智能体的每个步骤和工具调用：71.5%

是，但仅具备基础日志 / 指标：22.5%

否：6.0%

2.6 智能体的评估与测试

尽管可观测性的采用率更高，但智能体评估仍在追赶并逐渐获得更多关注。略超半数（52.4%）的组织表示会基于测试集进行离线评估，这表明许多团队已意识到在部署前排查回归问题、验证智能体行为的重要性。在线评估的采用率较低（37.3%），但随着各团队开始监控智能体在实际场景中的性能，其普及率正在逐步提升。

2.6.1 您通过哪些方式评估智能体？（可多选）

基于测试集的离线评估：52.7%

基于生产数据的在线评估：38.3%

尚未进行评估：29.4%

其他：1.7%

对于已将智能体投入生产的组织，评估实践可能更为成熟，整体评估采用率明显更高（“尚未进行评估” 的比例从 29.5% 降至 22.8%）。我们还发现，更多组织开始采用在线评估（44.8%），这表明一旦智能体面向真实用户，团队需要通过观测生产数据来实时发现问题。

2.6.2 已将智能体投入生产的情况下，您通过哪些方式评估智能体？（可多选）

基于测试集的离线评估：54.5%

基于生产数据的在线评估：44.8%

尚未进行评估：22.8%

其他：2.5%

大多数团队仍从离线评估入手，这可能是因为离线评估的入门门槛更低、设置更简单，但许多团队正逐步采用混合评估方法。在进行评估的组织中，近四分之一同时结合了离线评估和在线评估。

2.6.3 进行评估的组织所采用的评估方式

仅离线评估：44.9%

仅在线评估：25.0%

离线 + 在线评估：30.1%（注：原文数据未直接给出，根据上下文推算）

进行评估的组织还会结合人工评估和自动化评估方法：利用 “LLM 作为评判者”（LLM-as-a-Judge）实现广度评估，通过人工审核确保深度评估。更广泛地说，人工审核（59.8%）在复杂或高风险场景中仍不可或缺，而 “LLM 作为评判者” 的方法（53.3%）正越来越多地被用于规模化评估质量、事实准确性和准则遵守情况。相比之下，ROUGE、BLEU 等传统机器学习指标的采用率较低，这些指标可能不太适用于存在多种有效响应的开放式智能体交互场景。

2.6.4 您使用哪些指标评估智能体？（可多选）

LLM 作为评判者（LLM-as-judge）：53.3%

内部人工审核 / 标注：59.8%

传统机器学习 / 数据科学指标（ROUGE、BLEU 等）：16.9%

其他：1.3%

2.7 模型与工具生态

OpenAI 模型占据主导地位，但很少有团队依赖单一供应商。

超过三分之二的组织表示使用 OpenAI 的 GPT 模型，但模型多样性已成为常态，超过四分之三的组织在生产或开发过程中使用多种模型。各团队越来越倾向于根据任务复杂度、成本、延迟等因素，将不同任务分配给不同模型，而非陷入单一平台锁定。

2.7.1 您的智能体使用哪些模型？（可多选）

OpenAI（GPT 系列）：67.8%

谷歌（Gemini）：37.4%

Anthropic（Claude）：36.6%

开源模型：34.2%

其他：5.9%

尽管商业 API 使用便捷，但许多组织仍将内部部署模型视为重要战略。三分之一的组织表示正在投入资源构建部署自有模型所需的基础设施和专业能力。开源模型的采用可能受到以下因素驱动：大规模场景下的成本优化、数据驻留与主权要求，或敏感行业的监管约束。

与此同时，微调仍是专业化操作，尚未成为标准流程。大多数组织（55.7%）未进行模型微调，而是依赖基础模型，结合提示工程（Prompt Engineering）和检索增强生成（RAG）技术。由于微调需要在数据收集、标注、训练基础设施及持续维护方面投入大量资源，因此它通常仅用于影响重大或高度专业化的应用场景。

2.7.2 您是否进行过模型微调？

是，且在生产中大量使用：13.8%

是，但仅处于实验阶段（主要使用基础模型）：30.5%

否：55.7%

3. 日常使用的智能体类型

当被问及 “您在日常工作中最常使用哪些智能体？” 时，书面反馈呈现出以下几个明显趋势：

3.1 代码智能体主导日常工作流

最常被提及的智能体是代码助手。受访者多次表示，Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf、Antigravity 等工具已成为其日常开发流程的一部分，无论是用于代码生成、调试、测试创建，还是浏览大型代码库。

3.1.1 受访者日常最常使用的智能体

Claude Code：120 + 次提及

Cursor：110 + 次提及

GitHub Copilot：80 + 次提及

Amazon Q：65 + 次提及

3.2 研究与深度研究智能体紧随其后

第二大常见类别是由 ChatGPT、Claude、Gemini、Perplexity 等工具支持的研究与深度研究智能体。这些智能体被用于探索新领域、总结长文档以及整合跨来源信息。它们通常与代码智能体配合使用，融入同一工作流。

3.3 基于 LangChain 和 LangGraph 构建的自定义智能体也颇受欢迎

第三类明显的反馈指向自定义智能体，许多受访者表示基于 LangChain 和 LangGraph 构建了内部智能体，用于质量保证测试、内部知识库搜索、SQL / 文本转 SQL、需求规划、客户支持及工作流自动化等场景。

有相当一部分受访者表示，除了 LLM 聊天或代码辅助工具外，他们尚未使用其他类型的智能体。这表明尽管智能体的使用已较为普遍，但 “万物皆智能体” 的广泛应用仍处于早期阶段。

4. 研究方法

本报告的洞察来源于 2025 年 11 月 18 日至 12 月 2 日期间开展的一项公开调查，调查为期两周，共收集到 1340 份有效反馈。以下是部分人口统计学数据：

4.1 前五大受访行业

科技行业：63%

金融服务行业：10%

医疗健康行业：6%

教育行业：4%

消费品行业：3%

制造业：3%

4.2 受访公司规模

不足 100 人：49%

100-500 人：18%

500-2000 人：15%

2000-10000 人：9%

10000 + 人：9%

好了，这就是我今天想分享的内容。

2025年 AI 智能体企业级落地现状报告