【Offline RL 核心】第 2 篇｜分布外动作与 Q 值高估：当 AI 开始“白日做梦”-洪萨配资

摘要：
如果你尝试把标准的 DQN 扔到一个静态数据集上训练，你通常会得到一个在训练集上 Q 值高得离谱、但在实际环境里一跑就“暴毙”的策略。这种现象被称为Extrapolation Error (外推误差)。本文将带你像侦探一样拆解这个灾难的发生过程：从数据分布的偏移（Distribution Shift），到神经网络的“幻觉”，再到 Bootstrapping 机制如何将这些错误无限放大。

目录 (Table of Contents)

问题的根源：数据分布 vs 策略分布
- “反事实查询” (Counterfactual Queries)
- 缺失的反馈回路
Extrapolation Error：神经网络的“幻觉”
- 未见区域的预测是随机的
- Maximization Bias 的推波助澜
致命组合：Bootstrapping + Function Approximation
- 误差传播螺旋
- 为什么 Supervised Learning 没有这个问题？
一个失败案例讲清原理
- 自动驾驶的惨剧
- 图解：Q 值的真实面貌 vs 想象面貌
总结与预告

1. 问题的根源：数据分布 vs 策略分布

在 Offline RL 中，我们面临两个分布的博弈：

行为策略分布 (Behavior Policy,π β \pi_\betaπβ)：这是产生数据集D \mathcal{D}D的分布。比如人类司机，他们很少会逆行，也很少冲出悬崖。
目标策略分布 (Target Policy,π θ \pi_\thetaπθ)：这是我们正在训练的 Agent。

1.1 “反事实查询” (Counterfactual Queries)

Q-Learning 的核心在于 Bellman Optimality Operator：
T Q ( s , a ) = r ( s , a ) + γ max ⁡ a ′ Q ( s ′ , a ′ ) \mathcal{T}Q(s, a) = r(s,a) + \gamma \max_{a'} Q(s', a')TQ(s,a)=r(s,a)+γa′maxQ(s′,a′)

注意这个max ⁡ a ′ \max_{a'}maxa′（或者 Actor-Critic 中的a ′ ∼ π θ ( s ′ ) a' \sim \pi_\theta(s')a′∼πθ(s′)）。
在更新Q ( s , a ) Q(s, a)Q(s,a)时，我们需要询问 Q 网络：“如果我在下一时刻s ′ s's′采取了动作a ′ a'a′，我也许能拿多少分？”

问题在于：这个a ′ a'a′是由当前策略π θ \pi_\thetaπθ计算出来的，很可能从未出现在数据集D \mathcal{D}D中。
这就是OOD (Out-of-Distribution) 动作。我们迫使 Q 网络去评估一个它从未见过的动作的价值。

2. Extrapolation Error：神经网络的“幻觉”

既然动作没见过，Q 网络会输出什么？0 吗？
不，它会输出噪声。

2.1 泛化的代价

深度神经网络具有强大的泛化能力。对于训练集中未包含的数据点（OOD 区域），网络的输出取决于初始化参数、激活函数以及训练数据的偶然相关性。
简单来说：对于没见过的动作，Q 网络的打分是不可控的，可能是 -100，也可能是 +1000。

2.2 Maximization Bias (极大化偏差)

如果 Q 值只是随机噪声，均值为 0，那问题还不大。但 RL 的更新公式里有一个max操作。

Q t a r g e t = r + γ max ⁡ a ′ Q ( s ′ , a ′ ) Q_{target} = r + \gamma \max_{a'} Q(s', a')Qtarget=r+γa′maxQ(s′,a′)

假设对于某个状态s ′ s's′，真实的 OOD 动作价值很低（比如撞墙）。
Q 网络由于估算错误，对 10 个 OOD 动作的估值分别是：[ − 5 , − 10 , 2 , − 50 , 100 , − 3 , . . . ] [-5, -10, 2, -50, \mathbf{100}, -3, ...][−5,−10,2,−50,100,−3,...]。
其中那个100是完全错误的“幻觉”。
但是max操作符专门挑选最大的值。它会精准地选中这个错误的 100，并认为这是“最优策略”。

结论：OOD 区域的估计误差本身可能是正态分布的，但max操作起到了过滤器的作用，只保留了正向误差 (Overestimation)。

3. 致命组合：Bootstrapping + Function Approximation

如果只是偶尔估错一次，也许还能忍。但在 RL 中，我们有Bootstrapping (自举)。

3.1 误差传播螺旋

Bootstrapping 意味着我们是用“对未来的估计”来更新“现在的估计”。

Step 1: 在状态s t + 1 s_{t+1}st+1，Agent 误以为一个 OOD 动作a b a d ′ a'_{bad}abad′能得高分（比如Q ( s t + 1 , a b a d ′ ) = 100 Q(s_{t+1}, a'_{bad}) = 100Q(st+1,abad′)=100）。
Step 2: 根据 Bellman 方程，这个错误的高分会回传给状态s t s_tst：
Q ( s t , a t ) ← r t + γ ⋅ 100 Q(s_t, a_t) \leftarrow r_t + \gamma \cdot 100Q(st,at)←rt+γ⋅100
现在，Q ( s t , a t ) Q(s_t, a_t)Q(st,at)也被高估了。
Step 3: 随着训练进行，这个高估的Q ( s t , a t ) Q(s_t, a_t)Q(st,at)又会作为 Target 传播给s t − 1 s_{t-1}st−1…

结果：Q 值像滚雪球一样爆炸。在很多 Offline RL 实验中，你会看到 Q 值迅速飙升到天文数字，而真实的 Test Reward 却是地板价。

4. 一个失败案例讲清原理

为了让这个抽象概念具象化，我们来看一个经典的自动驾驶案例。

4.1 场景设置

任务：高速公路驾驶。
数据集D \mathcal{D}D：人类专家数据。人类总是保持在车道中间，偶尔变道。数据集中从未包含“冲出护栏”的数据。

4.2 训练过程中的悲剧

步骤	这里的“内心戏” (Q-Network)	真实世界 (Environment)
1. 初始化	网络随机初始化。对于动作“猛打方向盘冲出护栏”，Q 值随机输出为+50（这是幻觉，因为没见过这数据）。	实际上冲出护栏 Reward =-1000。
2. 策略查询	算法计算`max Q`。它发现：“保持车道”的 Q 值是 10（基于数据学到的），但“冲出护栏”的 Q 值是 50。	-
3. 误判	算法欢呼：“发现新大陆了！原来冲出护栏才是捷径！”	-
4. Online vs Offline	Online RL: 会试一次，撞车，拿回 -1000，修正 Q 值为低分。不再犯错。	Offline RL:不能试！只能相信那个 +50。
5. 策略更新	Agent 将策略π \piπ更新为：在任何时候都倾向于“冲出护栏”。	-
6. 最终测试	模型上线。第一秒钟，车子直接冲出悬崖。	GG (Game Over)