news 2026/4/22 14:55:01

收藏!台大李宏毅 2025 AI Agent 保姆级教程(小白 程序员入门必备)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
收藏!台大李宏毅 2025 AI Agent 保姆级教程(小白 程序员入门必备)

本文是台大教授李宏毅爆火油管视频《AI Agent》的精华文字实录,内容从基础概念到实战应用层层递进,逻辑清晰、案例通俗,是零基础小白入门AI Agent、程序员深化大模型应用认知的优质教材。原视频时长较长,智能超参数团队特意整理了核心内容,方便大家高效学习。建议先收藏,反复研读吃透AI Agent核心逻辑!以下,enjoy:

视频链接:https://www.youtube.com/watch?v=M2Yg1kwPpts

PPT链接:https://docs.google.com/presentation/d/1kTxukwlmx2Sc9H7aGPTiNiPdk4zN_NoH

一、先搞懂:到底什么是AI Agent?

AI Agent是当前大模型领域最热门的方向之一,但这个概念没有统一标准,每个人的理解可能都不同。我们先从「日常使用AI的方式」对比,帮你快速get核心差异:

现在我们用AI,大多是「指令驱动」——你说“翻译AI Agent”,它就输出翻译结果;你问“写一段Python代码”,它就生成代码,完全是“一个口令一个动作”,不会多做一步。

而AI Agent的核心是「目标驱动」:人类只需要给出最终目标,不用告诉AI具体步骤,AI会自己规划路径、解决问题。比如你说“完成某课题的文献调研并生成分析报告”,AI Agent会自动检索文献、筛选重点、分析数据、撰写报告,甚至如果发现数据不足,还会回头补充检索——整个过程完全自主,像一个有独立思考能力的助手。

更关键的是,AI Agent要应对「复杂且动态的环境」:目标的达成往往需要多步骤互动,环境还可能出现不可预测的变化(比如检索文献时遇到付费墙、数据格式不兼容),这就要求AI Agent能灵活调整计划,而不是机械执行预设流程。

二、AI Agent的核心运作逻辑(一张图看懂)

AI Agent之所以能自主完成目标,背后的运作流程可以简化为「感知-决策-行动-反馈」的循环,用一张幻灯片就能看明白:

  1. 输入:目标(Goal):人类给出的最终需求(比如“赢下围棋比赛”“完成数据分析”);
  2. 感知:观察(Observation):AI Agent获取当前环境状态(比如棋盘上的棋子位置、手头的数据集信息);
  3. 决策:行动(Action):根据目标和当前观察,决定下一步要做什么(比如围棋落子位置、调用数据分析工具);
  4. 反馈:环境变化:行动执行后,环境会产生新的状态(比如对手落子、工具返回分析结果),AI Agent再次感知新状态,重复循环直到目标达成。

举个通俗例子:AlphaGo就是AI Agent

大家熟悉的AlphaGo,完美契合这个逻辑:

  • 目标:赢下围棋比赛;
  • 观察:棋盘上黑白子的实时位置;
  • 行动:选择19×19棋盘上的合法落子点;
  • 反馈:对手落子后,棋盘状态更新,AlphaGo重新观察并决策。

其实AlphaGo的底层逻辑,就是强化学习(RL)的经典应用——过去打造AI Agent,大多依赖RL算法:把目标转化为“奖励(Reward)”,比如赢棋得+1、输棋得-1,让AI通过训练最大化奖励值。但这种方式有个致命缺点:任务迁移能力差——AlphaGo只会下围棋,想让它下西洋棋,必须重新训练一个全新模型。

三、新时代的突破:用LLM直接做AI Agent

AI Agent再次爆火,不是因为发明了新技术,而是大语言模型(LLM)的崛起让“通用AI Agent”成为可能——我们不再需要为每个任务单独训练模型,直接用现成的LLM就能搭建AI Agent!

LLM做AI Agent的核心逻辑

LLM的优势在于「自然语言理解+通用推理能力」,把它当作AI Agent的核心,运作流程会变成这样:

  1. 目标输入:用自然语言告诉LLM目标(比如“帮我规划3天东京旅行,预算5000元”);
  2. 环境感知:环境信息可以是文字(比如旅行攻略、预算限制),现在很多LLM支持图片输入(比如机票截图、景点照片),无需额外转换;
  3. 行动生成:LLM用文字描述下一步行动(比如“搜索东京往返机票,筛选2000元内航班”);
  4. 行动执行:通过工具调用模块,把文字描述转化为实际操作(比如调用机票搜索API、打开浏览器检索信息);
  5. 循环反馈:工具返回结果(比如找到符合条件的航班),LLM接收后继续规划下一步,直到目标完成。

小插曲:LLM下棋翻车现场

可能有人会问:LLM这么强,能直接下棋吗?答案是:目前还不行,但这不妨碍它做其他AI Agent任务。

早在2022年(ChatGPT出现前的“上古时代”),就有人用LLM测试下西洋棋——把棋盘位置转化为文字输入,结果没有任何模型能给出正确走法,弱一点的模型甚至会违反规则乱走。

到了现在,就算是ChatGPT o1、DeepSeek-R1这样的强模型,下棋依然翻车:把兵当马走、主教无视阻挡、甚至凭空“变出”棋子,最后还会出现“自己吃自己棋子然后宣布胜利”的荒诞场景。

这说明LLM在「规则明确、需要精准逻辑推理」的任务上还有短板,但在「开放场景、需要灵活规划」的任务中(比如旅行规划、文献调研、日常办公),LLM驱动的AI Agent已经能发挥巨大作用。

四、LLM做AI Agent的2个核心优势

相比传统RL方法,LLM驱动的AI Agent有两个不可替代的优势:

1. 行动无局限:近乎无限的可能性

传统AI Agent的行动是预设的(比如AlphaGo只能落子),而LLM能生成任意文字输出,这意味着AI Agent的行动可以是:

  • 调用工具(“用Python读取CSV文件并做数据可视化”);
  • 生成内容(“根据数据分析结果写一份报告”);
  • 沟通协作(“联系团队成员确认项目进度”);
  • 甚至自我修正(“刚才的代码有语法错误,修改如下”)。

这种灵活性让AI Agent能适配各种复杂场景,从办公自动化到科研辅助,几乎无所不能。

2. 无需手动设计Reward:用反馈直接优化

传统RL需要人工设计Reward函数(比如“程序编译成功得+1,失败得-1”),但Reward的数值设定非常主观(为什么失败是-1不是-10?),还会影响模型效果。

而LLM驱动的AI Agent完全不需要Reward:如果程序编译失败,直接把错误日志传给LLM,它能读懂日志并修正代码;如果旅行规划超预算,把预算提醒告诉它,它会自动调整住宿或交通方案。这种「直接反馈+自然语言理解」的方式,比单一数值的Reward更高效、更精准。

五、AI Agent的3个经典应用场景(从虚拟到现实)

LLM驱动的AI Agent已经有了很多落地案例,从虚拟世界到现实应用,覆盖多个领域:

1. 虚拟世界:AI驱动的NPC

2023年有个经典实验——用LLM搭建虚拟村庄,里面的NPC都有自己的目标(比如“举办情人节派对”“准备考试”)。这些NPC会:

  • 感知环境:通过文字描述了解周围情况(“看到Eddy在读书”“伊丽莎白在装饰房间”);
  • 自主行动:根据目标做出决策(“时间不早了,上床睡觉”);
  • 互动协作:比如为了举办派对,NPC会主动邀请其他人帮忙布置。

甚至有人在《我的世界》(Minecraft)中用AI替换所有NPC,这些AI不仅能自主交易,还能组成“政府”制定规则、管理社群(真实性有待考证,但足以体现AI Agent的潜力)。

2. 现实办公:AI替你用电脑

现在最实用的AI Agent应用,就是让AI像人类一样使用电脑——代表产品有Claude的Computer Use、ChatGPT的Operator。它们能:

  • 订机票、订披萨、预约居家清洁;
  • 浏览网页、填写表单、处理邮件;
  • 甚至使用办公软件(比如Excel数据分析、Word文档编辑)。

这种AI Agent的运作逻辑是:

  • 目标:用户的自然语言需求(“帮我订下周五上海到北京的机票”);
  • 观察:电脑屏幕画面(LLM直接识别图片);
  • 行动:控制鼠标/键盘点击、输入文字(比如打开购票网站、筛选航班)。

其实早在2017年就有类似尝试,但当时没有LLM,只能用CNN识别屏幕画面,效果很差。现在有了LLM的自然语言理解和推理能力,AI使用电脑的准确率大幅提升,已经能处理大部分日常办公任务。

3. 科研&开发:AI帮你做研究、训模型

更高级的应用是让AI Agent参与科研和模型开发:

  • 科研辅助:Google的AI Coscientist能根据研究方向,自主制定实验方案、撰写研究提案(号称“把人类10年的研究成果压缩到2天”,真实性待验证);
  • 模型训练:AIDE框架能让AI Agent扮演“机器学习工程师”,自主编写训练代码、调整参数、优化模型,甚至参加数据科学竞赛;
  • 多Agent协作:多个AI Agent分工合作,一个负责数据采集,一个负责模型训练,一个负责结果分析,高效完成复杂任务。

六、AI Agent的3个核心能力拆解(必学重点)

要让LLM成为好用的AI Agent,需要具备3个关键能力:经验学习、工具使用、计划执行。这也是入门AI Agent必须掌握的核心知识点:

1. 经验学习:让AI Agent“吃一堑长一智”

AI Agent需要能从过去的互动中学习,调整后续行为——比如第一次写代码出错,第二次要能避免同样的错误。但LLM的参数是固定的(不微调的情况下),怎么实现学习?

答案是:不调参数,靠“记忆+检索”

核心逻辑:
  • 给AI Agent一个“长期记忆库”,存储过去的互动经验(比如错误日志、成功案例);
  • 当遇到新问题时,通过「检索模块(类似RAG技术)」从记忆库中找出相关经验,和当前问题一起传给LLM;
  • LLM根据“相关经验+当前问题”生成行动,相当于“站在过去的经验上做决策”。
关键技巧:
  • 只记“重要信息”:用一个“写入模块(Write Module)”筛选经验,避免记忆库被无关信息塞满(比如只记成功的代码方案,不记中间的无效尝试);
  • 强化正面经验:实验证明,给LLM看“正确案例”比“错误案例”更有效——与其告诉它“不要这么做”,不如直接展示“应该这么做”;
  • 抽象经验:用“反思模块(Reflection Module)”把零散的经验抽象成规律(比如“处理CSV文件时,先检查数据格式再读取”),甚至建立知识图谱,让检索更高效。
实际案例:ChatGPT的“记忆功能”

现在ChatGPT已经支持长期记忆,你告诉它“我周五下午要上机器学习课”,它会把这个信息存入记忆库。之后你问“周五下午出去玩怎么样?”,它会检索记忆并提醒你“你周五下午有课,要不要调整时间?”。不过要注意,ChatGPT的记忆可能出错(比如把“老师”误记为“学生”),因为它会对记忆内容进行抽象加工,不是原封不动存储。

2. 工具使用:让AI Agent“借力打力”

LLM虽然强,但有短板(比如实时数据查询、精准计算、多模态处理),而工具能弥补这些不足。对AI Agent来说,工具就是“函数”——不需要知道工具内部原理,只要知道“怎么调用”就行。

常用工具类型:
  • 基础工具:搜索引擎(RAG)、计算器、文件处理工具;
  • 专业工具:API接口(机票预订、天气查询)、办公软件、科研设备控制工具;
  • 其他AI:比如文字LLM调用语音识别AI处理音频,小模型调用大模型解决复杂问题。
工具使用的通用方法(所有强LLM都适用):
  1. 用System Prompt告诉LLM“可以使用工具”,并定义工具调用格式(比如用[Tool]包裹调用指令,[Output]包裹工具返回结果);
  2. 列出可用工具的功能和参数(比如“Temperature工具:查询指定地点和时间的气温,参数:地点、时间”);
  3. 用户输入需求后,LLM判断是否需要调用工具,生成调用指令;
  4. 开发者搭建“工具调用桥梁”,把LLM的文字指令转化为实际工具调用;
  5. 工具返回结果后,LLM结合结果生成最终回答(用户看不到工具调用过程)。
避坑指南:
  • 工具太多怎么办?:把工具说明存入记忆库,用检索模块筛选合适的工具(类似经验学习的逻辑);
  • 工具出错怎么办?:LLM有一定的判断力——如果工具返回“高雄气温10000度”这种明显错误的结果,LLM会识别并提示“工具输出可能有误,请检查”;
  • 要不要调用工具?:简单问题(比如3×4)直接回答更高效,复杂问题(比如实时天气、大数据分析)再调用工具,避免“杀鸡用牛刀”。

3. 计划执行:让AI Agent“有条理地做事”

复杂目标需要多步骤完成,AI Agent必须具备“规划能力”——比如规划3天旅行,要先订机票、再找住宿、最后安排行程,还要应对突发情况(比如航班取消)。

计划执行的核心逻辑:
  1. 初始规划:收到目标后,LLM先生成详细步骤(比如“旅行规划步骤:1. 确定出行日期;2. 搜索往返机票;3. 预订住宿;4. 规划每日行程”);
  2. 动态调整:每完成一步,接收环境反馈(比如“机票已订好,价格1800元”),LLM重新评估计划是否需要调整(比如预算剩余3200元,住宿可以选中等价位);
  3. 应对突发:如果遇到意外(比如“预订的酒店满房”),LLM重新规划(比如“搜索附近同价位酒店,或调整住宿区域”)。
现在LLM的规划能力怎么样?
  • 简单任务(比如叠积木、刷牙步骤):能准确拆解步骤,规划能力较好;
  • 复杂任务(比如旅行规划、科研方案):单独LLM表现较差(2024年初GPT4 Turbo的旅行规划成功率仅0.6%),但结合工具后能大幅提升(用Solver工具辅助,成功率可达90%+);
  • 极端场景(比如自定义规则的“神秘方块世界”):普通LLM几乎无法完成,专门的推理模型(比如GPT-4o、LLaMA 3.1 405B)能完成简单案例。
强化规划能力的技巧:
  • 脑内小剧场(Tree Search):让LLM在“脑海中”模拟不同行动的结果(比如“如果订这家酒店,预算够不够?如果不够,换哪家?”),找出最优路径;
  • 世界模型(World Model):让LLM模拟环境变化(比如“如果现在订机票,会不会遇到高峰期涨价?”),提前规避风险;
  • 避免“想太多”:有些推理模型会过度思考(比如“按钮点下去会怎么样”想个不停),反而影响效率,需要设置“思考阈值”,到时间就执行行动。

七、最后总结:AI Agent的核心是“LLM的应用创新”

这门课的核心观点的是:AI Agent不是新技术,而是LLM能力的延伸——利用LLM的自然语言理解、通用推理、文字生成能力,结合记忆、工具、规划模块,打造出“能自主完成目标”的智能体。

对小白来说,学习AI Agent可以从“理解核心逻辑”开始:记住“目标-观察-行动-反馈”的循环,搞懂记忆、工具、规划三个模块的作用;对程序员来说,可以从“实战入手”:用ChatGPT API+工具调用,搭建简单的AI Agent(比如自动处理邮件、生成周报),再逐步优化记忆和规划功能。

AI Agent的潜力巨大,未来会渗透到办公、科研、教育、生活等各个领域。现在收藏这篇教程,反复学习核心逻辑,就能在AI Agent爆发期抢占先机!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

适用人群

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 23:30:19

终极指南:如何使用clawPDF这款免费开源PDF转换工具

终极指南:如何使用clawPDF这款免费开源PDF转换工具 【免费下载链接】clawPDF Open Source Virtual (Network) Printer for Windows that allows you to create PDFs, OCR text, and print images, with advanced features usually available only in enterprise sol…

作者头像 李华
网站建设 2026/4/18 20:00:37

6款免费AI论文生成器实测:一键出初稿,写论文效率飙升200%!

别再为写论文熬夜秃头了!这6款免费AI工具,让你彻底告别写作焦虑。 在当今快节奏的学术环境中,效率就是生命线。无论是被Deadline追赶的大学生,还是追求高质量产出的科研人员,如何快速、高效地完成一篇结构严谨、内容专…

作者头像 李华
网站建设 2026/4/19 19:55:37

Dify平台如何优化RAG系统的检索与生成效率?

Dify平台如何优化RAG系统的检索与生成效率? 在企业级AI应用日益普及的今天,一个现实问题摆在面前:我们有了强大的大语言模型(LLM),但它们“知道”的往往是训练数据截止前的公开信息。当用户问出“公司今年的…

作者头像 李华
网站建设 2026/4/18 10:00:47

实战精通Mermaid:2025最实用的文本图表解决方案

实战精通Mermaid:2025最实用的文本图表解决方案 【免费下载链接】mermaid mermaid-js/mermaid: 是一个用于生成图表和流程图的 Markdown 渲染器,支持多种图表类型和丰富的样式。适合对 Markdown、图表和流程图以及想要使用 Markdown 绘制图表和流程图的开…

作者头像 李华
网站建设 2026/4/18 7:17:50

IINA视频播放器:5个简单步骤让你的Mac观影体验焕然一新

IINA视频播放器:5个简单步骤让你的Mac观影体验焕然一新 【免费下载链接】iina 项目地址: https://gitcode.com/gh_mirrors/iin/iina 还在为Mac上的视频播放器功能单一、界面老旧而烦恼吗?IINA作为macOS平台上最现代的免费视频播放器,…

作者头像 李华
网站建设 2026/4/22 6:27:53

终极ExoPlayer快速上手完整教程:从零开始构建专业媒体播放器

终极ExoPlayer快速上手完整教程:从零开始构建专业媒体播放器 【免费下载链接】ExoPlayer 项目地址: https://gitcode.com/gh_mirrors/ex/ExoPlayer Google ExoPlayer是一个专为Android平台设计的强大媒体播放库,提供了远超原生MediaPlayer的灵活…

作者头像 李华