news 2026/7/5 3:36:53

Bellman方程 - RL强化学习中价值估计的数学根基

张小明

前端开发工程师

1.2k 24

文章封面图 — Bellman方程 - RL强化学习中价值估计的数学根基

TL;DR Too Long; Didn’t Read，太长没仔细看
S status
A action
R reward

下标 a~π：读作 a 服从分布 π
a：action，智能体当前选择的动作
π：Policy（策略），大模型 / 强化学习里就是策略模型，输入状态 s ，输出每个动作 a 的选择概率分布

π 是一个函数 π(a | s) = P(选动作a | 当前状态s)
输入当前环境状态 s，输出所有动作的概率分布，这就是一套完整决策策略：给定任意场景，告诉每种行为该以多大概率执行
早期控制论、马尔可夫决策过程（MDP）文献，统一用小写希腊字母 π 代表策略映射函数，学界约定俗成记号

确定性策略：π 直接输出唯一动作，比如看到红灯一定停车
随机策略（LLM/PPO 使用）：输出概率分布，即 π(a | s)

Actor 是训练后的对话大模型，数学上记为策略 π
核心功能：接收一段上下文，输出词典里每个字（token）的生成概率
用户输入 prompt：今天天气很
词典里候选 token：好、差、冷、热、猫
Actor 模型跑一遍后，输出一组概率：好：70%；冷：20%；热：8%；差：1.8%；猫：0.2%
这一组概率分布，就是策略 π 在当前状态下给出的动作分布

如果是确定性输出（贪心解码）：直接选概率最高的好，固定输出。
但 RL 训练、日常生成对话用随机采样 a~π ：按照上面的概率抽签选下一个 token：70% 抽中好；20% 抽中冷；小概率抽到别的字

随机采样输出文本：完整生成整条回答的流程（逐 token 循环）

输入 prompt：今天天气很
Actor (π) 算出所有 token 概率分布
按概率随机采样 1 个 token，比如抽到好
把今天天气很+好拼接成新上下文，再丢回 Actor
重复步骤 2-4，不断采样下一个字，直到生成结束标记，完整回答就出来了

为什么 RL/PPO 不能直接贪心选最高概率

如果每次固定选概率最高 token，回答会千篇一律，缺乏多样性
强化学习需要多条不同回答样本送入 RM 打分，才能计算奖励、更新模型
公式里的期望 Ea~π，本质就是对「所有可能采样出来的回答」算平均收益，只有随机采样才能模拟这个期望

状态价值贝尔曼方程

γ 国际音标/ˈɡæmə/，中文标准读法伽马

动作价值Q贝尔曼方程

在状态 s 做出动作 a 的长期预期总回报 = 执行 a 拿到的即时奖励，加上 γ 折扣后的「下一状态 s’ 能取到的最优长期回报」，再对所有可能出现的下一状态 s’ 做概率平均 E
最优贝尔曼方程，是 Q-learning 这类强化学习算法的核心，它假设从下一步开始全程都用最棒的策略决策

示例

V 和 Q 的区别

其他补充

总结

贝尔曼方程就是把 “短期收益” 和 “长期未来收益” 绑定在一起，让模型不只看眼前奖励，学会长远最优决策

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/7/5 3:35:52

sqlmap的使用以及如何避免轰炸式扫描（靶场）

1.直接上靶场2.然后我们打开kali，打开终端，输入：sqlamp -u “http://target.com" --forms -batch (先别急！！)这个时候sqlmap就开始工作了，但是这种做法是十分危险的，因为这种指令是让sqlma…

作者头像

李华

网站建设 2026/7/5 3:35:33

手把手教你用Python调用视频元数据解析API：从注册到生产级封装

为什么需要视频元数据解析接口？ 在日常开发中，我们经常需要处理视频链接——无论是爬取视频详情、搭建视频聚合应用，还是做内容审核或数据统计，视频元数据（Metadata） 都是核心信息。元数据通常包括&#x…

作者头像

李华

网站建设 2026/7/5 3:32:40

使用更有意义的命名

在大部分编程活动中，我们都是在给各种各样的元素来命名，如果你取了一个好名字，不仅能让元素的职责马上清晰起来，而且能使代码更好维护。在命名的时候，注意尽量使用声明方式的词语，不要用实现来命名&#xf…

作者头像

李华

网站建设 2026/7/5 3:31:18

我现在有一些工具类，我应该不应该做自己的框架？

那框架完全是废物吗？非也。能产生这种东西，就表明它必定有它自己的用途。我们有一个业务，这个业务有它自己的模型、规则、流程等等。但是有些不确定的东西会未来才接进来，那么我们就非得有一个框架不可：比如图形界面就…

作者头像

李华

网站建设 2026/7/5 3:29:01

自定义AES变形加密

题解一：自定义AES变形加密（AES-ECB分组碰撞爆破）一、题目简介本题为中等难度分组密码CTF赛题，基于标准AES算法进行自定义改造，采用极不安全的ECB电子密码本模式加密Flag，同时开放用户自定义明文加密接口。核…

作者头像

李华

网站建设 2026/7/5 3:23:25

单案复盘 26-cv-7458：Hyacinth Law 代理 RGOSME 女装商标维权完整处理实录

跨境知识产权｜案件编号：26-cv-07458｜女装服饰 / 休闲穿搭 / 配饰周边卖家必读避雷指南国人原创女装品牌新案落地，第 25 类全类目商标保护全覆盖，Clovian 律所精准打击蹭词跟卖，卫衣 / 连衣裙 / 休闲上衣全线…

作者头像

李华