news 2026/4/22 20:28:47

【2026】 LLM 大模型系统学习指南 (25)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【2026】 LLM 大模型系统学习指南 (25)

强化学习(RL)概述:和机器学习相通的 “三步学习法”

强化学习(Reinforcement Learning, RL)的核心是 “智能体在环境中试错学习”—— 通过与环境的持续互动,不断优化行为策略,最终找到能获得最大回报的行动方式。它和传统机器学习(监督 / 无监督)看似不同,但本质遵循完全一致的 “三步学习法”:定义模型(策略)→ 计算损失(回报)→ 优化更新(迭代),这一核心逻辑让 RL 的学习门槛大幅降低。

本文将从 “核心组件→三步学习法→实操落地” 层层拆解,用通俗类比和基础代码,帮你快速理解 RL 的本质,掌握入门关键。

一、RL 的核心组件:理解 “智能体与环境的互动游戏”

在 RL 中,所有学习过程都围绕 “智能体(Agent)与环境(Environment)的互动” 展开,核心组件可通过 “游戏玩家闯关” 的类比轻松理解:

组件通俗类比核心作用
智能体(Agent)游戏玩家做出决策(选动作)、接收反馈、更新策略
环境(Environment)游戏世界(如迷宫、关卡)接收智能体的动作,返回新状态和回报
状态(State, S)玩家当前位置 / 处境(如迷宫坐标)描述环境的当前情况,是智能体决策的依据
动作(Action, A)玩家的操作(如上下左右)智能体可执行的行为,会改变环境状态
回报(Reward, R)游戏得分(如吃到金币 + 10,掉坑 - 50)环境对动作的 “打分”,是学习的核心反馈信号
策略(Policy, π)玩家的闯关策略(如优先走右)状态到动作的映射,即 “在什么状态下选什么动作”
价值函数(Value Function, V)玩家对当前位置的 “价值判断”(如这里容易得分)评估状态的长期价值(未来能获得的总回报)

核心互动流程:智能体在状态 S 下,根据策略 π 选择动作 A → 环境接收 A 后,返回新状态 S' 和即时回报 R → 智能体根据 R 和 S' 更新策略 π → 重复这一循环,直到学习到最优策略。

二、RL 的 “三步学习法”:和机器学习的底层逻辑相通

无论是监督学习(如分类)、无监督学习(如聚类),还是 RL,核心都遵循 “定义模型→计算损失→优化更新” 的三步法。RL 的独特之处仅在于 “模型是策略、损失是回报偏差、优化是策略迭代”,具体对应如下:

第一步:定义模型 —— 策略(Policy):智能体 “怎么选动作”

对应传统机器学习的 “模型结构定义”(如 CNN、线性回归),RL 中 “模型” 就是策略 π—— 它规定了智能体在每个状态下如何选择动作。

两种常见策略类型:
  • 确定性策略:状态 S→固定动作 A(如 “迷宫中看到左边是墙就走右”);
  • 随机性策略:状态 S→动作概率分布(如 “迷宫中看到岔路,60% 走右、40% 走左”),更适合探索未知环境。
通俗例子:

迷宫寻宝游戏中,策略就是 “智能体在每个路口(状态)选择走哪条路(动作)的规则”。

代码表示(简单确定性策略):

python

运行

# 状态:迷宫坐标 (x, y),动作:0=上、1=下、2=左、3=右 def simple_policy(state): x, y = state # 策略:优先向宝藏方向(假设宝藏在(5,5))移动 if x < 5: return 1 # 向下 elif y < 5: return 3 # 向右 else: return 0 # 到达后停止

第二步:计算损失 —— 回报(Reward):判断 “动作好不好”

对应传统机器学习的 “计算损失函数”(如交叉熵、MSE),RL 中 “损失” 通过回报体现 —— 回报是环境对动作的反馈,核心是 “量化动作的好坏”。

核心逻辑:
  • 即时回报(Immediate Reward):动作执行后立刻获得的反馈(如吃到金币 + 10,掉坑 - 50);
  • 累积回报(Cumulative Reward):当前动作带来的 “即时回报 + 未来所有回报的总和”,是策略优化的核心依据(比如 “眼前少吃 1 个金币,但能通往更多金币区域,总回报更高”)。
累积回报计算公式(折扣回报):

Gt​=Rt​+γRt+1​+γ2Rt+2​+...

  • γ(折扣因子):0≤γ≤1,控制未来回报的权重(γ=0 只看即时回报,γ=1 重视未来回报);
  • 意义:让智能体 “有远见”,不局限于眼前利益。
通俗例子:

迷宫中,“走岔路 A” 即时回报 + 1(捡到小金币),但前方是死路;“走岔路 B” 即时回报 0,但前方有 100 金币。通过累积回报计算,智能体会选择岔路 B。

第三步:优化更新 —— 策略迭代:让智能体 “下次做得更好”

对应传统机器学习的 “反向传播优化参数”,RL 的 “优化” 就是更新策略—— 根据累积回报的反馈,调整智能体在不同状态下的动作选择,让 “好动作被更多选择,坏动作被避免”。

核心逻辑:
  • 若某个动作 A 在状态 S 下带来的累积回报 G 很高 → 提升策略中 “S→A” 的选择概率;
  • 若累积回报 G 很低 → 降低 “S→A” 的选择概率;
  • 重复迭代,直到策略稳定(智能体在大多数状态下都能选到最优动作)。
通俗例子:

迷宫中,智能体第一次走岔路 A 掉坑(回报 - 50)→ 下次再到该路口时,大幅降低走 A 的概率;走岔路 B 拿到 100 金币(回报 + 100)→ 下次优先选 B。

三、RL 与传统机器学习的核心区别:学习信号的来源不同

尽管都遵循 “三步法”,但 RL 与监督 / 无监督学习的核心差异在于 “学习信号的来源”,这也决定了它们的适用场景:

学习类型学习信号(反馈)核心特点适用场景
监督学习人工标注的 “正确答案”知道 “什么是对的”,直接学习映射关系图像分类、文本翻译
无监督学习数据本身的结构(如聚类)不知道 “正确答案”,挖掘数据内在规律异常检测、用户分群
强化学习环境反馈的 “回报信号”不知道 “正确答案”,通过试错知道 “好不好”游戏闯关、机器人控制、自动驾驶

关键结论:RL 的核心优势是 “无需人工标注”,仅通过环境回报就能自主学习,特别适合 “无法提前给出正确答案,但能判断动作好坏” 的场景。

四、实操落地:用 Q-Learning 实现 “CartPole 平衡”

我们用 OpenAI Gym 的 CartPole 环境(小车平衡杆),实现基础的 Q-Learning 算法,直观感受 RL 的 “三步学习法” 落地过程。

1. 环境说明:CartPole 任务

  • 目标:控制小车左右移动,让杆保持平衡不倒下;
  • 状态 S:4 维向量(小车位置、小车速度、杆的角度、杆的角速度);
  • 动作 A:2 种(0 = 向左移,1 = 向右移);
  • 回报 R:每保持平衡 1 步 + 1 分,杆倒下则游戏结束。

2. 完整代码(Python+OpenAI Gym)

python

运行

# 安装依赖 # pip install gym numpy import gym import numpy as np # ---------------------- 第一步:定义策略(Q表:状态→动作价值映射) ---------------------- # Q表:rows=状态离散化后的数量,cols=动作数量(2),存储每个(S,A)的价值 env = gym.make("CartPole-v1") state_space = 10 # 状态离散化(将4维连续状态转为10×10×10×10=10^4个离散状态) action_space = env.action_space.n # 动作数量:2 # 初始化Q表(随机值) def init_q_table(): return np.random.uniform(low=-1, high=1, size=(state_space, state_space, state_space, state_space, action_space)) q_table = init_q_table() # 状态离散化:将连续状态转为离散索引(方便Q表存储) def discretize_state(state): state_min = env.observation_space.low state_max = env.observation_space.high # 每个维度分10档,计算当前状态的档位索引 discrete_state = (state - state_min) / (state_max - state_min) * (state_space - 1) return tuple(discrete_state.astype(int)) # ---------------------- 第二步:计算回报(基于Q表的价值评估) ---------------------- # 探索与利用:初期多探索(随机选动作),后期多利用(选Q值最大的动作) epsilon = 1.0 # 探索率(1.0=全探索) epsilon_decay = 0.995 # 探索率衰减 gamma = 0.95 # 折扣因子(重视未来回报) def choose_action(state): discrete_s = discretize_state(state) # 探索:随机选动作 if np.random.uniform(0, 1) < epsilon: return env.action_space.sample() # 利用:选Q值最大的动作 else: return np.argmax(q_table[discrete_s]) # ---------------------- 第三步:更新策略(Q表迭代更新) ---------------------- learning_rate = 0.1 # 学习率(更新幅度) def update_q_table(state, action, reward, next_state, done): discrete_s = discretize_state(state) discrete_next_s = discretize_state(next_state) # Q表更新公式:基于当前回报和未来最大价值 current_q = q_table[discrete_s][action] # 若游戏结束,未来价值为0;否则取next_state的最大Q值 next_q = 0 if done else np.max(q_table[discrete_next_s]) new_q = current_q + learning_rate * (reward + gamma * next_q - current_q) # 更新Q表(策略优化) q_table[discrete_s][action] = new_q # ---------------------- 启动训练(迭代1000轮游戏) ---------------------- episodes = 1000 scores = [] # 记录每轮得分(保持平衡的步数) for episode in range(episodes): state = env.reset() # 重置环境,获取初始状态 done = False score = 0 while not done: # 1. 选动作(策略) action = choose_action(state) # 2. 执行动作,获取环境反馈(新状态、回报、是否结束) next_state, reward, done, _ = env.step(action) score += reward # 3. 更新Q表(策略优化) update_q_table(state, action, reward, next_state, done) # 更新状态 state = next_state # 探索率衰减(后期多利用) epsilon = max(0.01, epsilon * epsilon_decay) scores.append(score) # 每100轮打印进度 if (episode + 1) % 100 == 0: avg_score = np.mean(scores[-100:]) print(f"第{episode+1}轮 | 平均得分:{avg_score:.1f} | 探索率:{epsilon:.3f}") # 测试训练效果(可视化) env = gym.make("CartPole-v1", render_mode="human") state = env.reset() done = False while not done: action = np.argmax(q_table[discretize_state(state)]) # 全利用策略 state, _, done, _ = env.step(action) env.render() env.close()

3. 代码核心逻辑(对应三步学习法)

  • 第一步(策略):用 Q 表定义策略,通过 “探索 - 利用” 机制选择动作;
  • 第二步(回报):环境返回的即时回报(每步 + 1)+ 未来最大 Q 值(长期回报);
  • 第三步(更新):用 Q 表更新公式迭代优化,让 “好动作(保持平衡)的 Q 值越来越高”。

4. 预期效果

  • 训练初期:平均得分≤50(杆很快倒下);
  • 训练后期:平均得分≥150(杆能长时间保持平衡);
  • 测试阶段:智能体能稳定控制小车,杆不倒下。

五、RL 的核心特点与适用场景

1. 核心特点

  • 自主学习:无需人工标注,仅靠环境回报就能迭代优化;
  • 序贯决策:关注 “长期回报最大化”,而非单步最优(如迷宫中放弃眼前小金币,追求终点大宝藏);
  • 探索与利用权衡:初期探索未知动作,后期利用已知最优动作,平衡学习效率和效果。

2. 典型适用场景

  • 游戏 AI:如 AlphaGo 下围棋、游戏机器人闯关;
  • 机器人控制:如机械臂抓取、自动驾驶车辆避障;
  • 决策优化:如推荐系统动态调整推荐策略、金融交易策略优化;
  • 复杂任务规划:如无人机路径规划、物流调度优化。

六、总结:RL 学习的核心要点与入门建议

  1. 核心逻辑:RL 与传统机器学习共享 “三步学习法”——策略(模型)→ 回报(损失)→ 更新(优化),抓住这一点就能快速入门;
  2. 关键认知:RL 的核心是 “回报信号的设计” 和 “探索 - 利用的平衡”,这两点直接决定学习效果;
  3. 学习顺序:
    • 入门:先掌握核心组件和 Q-Learning(基础算法),用 CartPole 环境跑通代码;
    • 进阶:学习价值函数、策略梯度(PG)、DQN 等算法,逐步过渡到复杂环境;
    • 实操:优先使用 OpenAI Gym 环境,避免重复开发,聚焦算法逻辑。

RL 的本质是 “让智能体在互动中自主成长”,而 “三步学习法” 是贯穿始终的核心线索。掌握这一逻辑后,后续复杂算法的学习都会变得有章可循。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 6:25:33

太流批了,神仙工具,值得收藏

今天给大家推荐两款软件&#xff0c;一款图吧工具箱&#xff0c;一款是某大师绿色版&#xff0c;有需要的小伙伴可以下载收藏。 第一款&#xff1a;图吧工具箱 图吧工具箱&#xff0c;是一款专为硬件爱好者和系统维护人员打造的免费开源工具合集&#xff0c;集成硬件检测、性能…

作者头像 李华
网站建设 2026/4/17 18:40:38

焊缝焊接处裂纹气孔飞溅缺陷检测数据集VOC+YOLO格式1494张6类别

注意数据集中有部分增强图片数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)&#xff1a;1494标注数量(xml文件个数)&#xff1a;1494标注数量(txt文件个数…

作者头像 李华
网站建设 2026/4/18 11:08:34

【第三套】好难!笔试3门,复试占比很高!

26复试课程已上线~另外还有线下复试集训营。1V1的简历修改自我介绍修改模拟面试1V1直系学长的复试专属讲解等内容。 祝大家复试顺利&#xff0c;成功上岸&#xff01; 写在前面 为了帮助大家顺利通过最后一关&#xff0c;今天开始我将每天更新一套复试真题&#xff01;复试真…

作者头像 李华
网站建设 2026/4/18 8:19:31

Creo许可证管理绩效评估指标体系

Creo许可证管理绩效评估指标体系&#xff1a;为什么它很重要&#xff1f;作为一名长期从事CAD软件管理工作的技术人员&#xff0c;我经常会遇到一个问题&#xff1a;如何衡量我们所使用的Creo许可证管理系统的运行效率和使用效果&#xff1f;是在企业规模扩展、项目需求增多的情…

作者头像 李华
网站建设 2026/4/18 0:29:38

参数运行文档的使用

摘要对于给定的光学系统&#xff0c;通过控制和调整选定的参数来检查其性能是很有帮助的。VirtualLab Fusion 提供了一个完全灵活且计算效率高&#xff08;通过并行化&#xff09;的参数运行功能&#xff0c;使用户能够指定不同的参数变化方式。举个例子&#xff0c;它可以用于…

作者头像 李华
网站建设 2026/4/22 8:12:48

2026必备!本科生毕业论文必备!9款AI论文网站深度测评

2026必备&#xff01;本科生毕业论文必备&#xff01;9款AI论文网站深度测评 2026年本科生论文写作工具测评&#xff1a;为何需要这份榜单&#xff1f; 随着AI技术的不断进步&#xff0c;越来越多的本科生开始借助AI工具辅助论文写作。然而&#xff0c;面对市场上琳琅满目的A…

作者头像 李华