news 2026/6/24 10:53:16

从单打独斗到群雄逐鹿:单智能体 RL 与多智能体 RL 的核心差异

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从单打独斗到群雄逐鹿:单智能体 RL 与多智能体 RL 的核心差异

摘要
AlphaGo 战胜人类标志着单智能体强化学习(Single-Agent RL)的巅峰,而 OpenAI Five 在 Dota 2 中的胜利则开启了多智能体强化学习(Multi-Agent RL, MARL)的时代。从“一个人玩游戏”到“一群人打群架”,难度不仅仅是数量的叠加。本文将从数学模型MDP 到 Markov Games的演变入手,剖析 MARL 面临的非平稳性(Non-Stationarity)维度灾难以及信誉分配等核心挑战。


目录

  1. 引言:为什么我们需要 MARL?
  2. 理论基石的演变:从 MDP 到 Markov Games
    • 单智能体:马尔可夫决策过程 (MDP)
    • 多智能体:马尔可夫博弈 (Markov Games)
    • 数学符号的本质区别
  3. 核心挑战一:环境的非平稳性 (Non-Stationarity)
    • 什么是“移动的靶子”?
    • 为什么 Experience Replay 在 MARL 中会失效?
  4. 核心挑战二:维度的诅咒与组合爆炸
  5. 核心挑战三:信息结构与信誉分配
    • 部分可观测性 (POMDP)
    • Lazy Agent 问题
  6. 总结与展望

1. 引言:为什么我们需要 MARL?

在传统的强化学习(RL)中,无论是玩 Atari 游戏还是控制机械臂,我们通常假设只有一个大脑在与环境交互。然而,现实世界往往不是孤独的:

  • 自动驾驶:你的车不仅要看路,还要博弈旁边那辆试图加塞的出租车。
  • 多机器人协作:一群仓储机器人需要配合搬运货物,互不碰撞。
  • RTS 游戏:星际争霸中,数百个单位需要协同作战。

当智能体(Agent)数量N > 1 N > 1N>1时,世界变了。环境不再是单纯的物理反馈,还包含了其他智能体的策略博弈


2. 理论基石的演变:从 MDP 到 Markov Games

理解 MARL 的第一步,是看懂数学定义的迁移。

2.1 单智能体:马尔可夫决策过程 (MDP)

单智能体 RL 的世界由一个五元组组成:⟨ S , A , P , R , γ ⟩ \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangleS,A,P,R,γ

  • 状态转移P ( s ′ ∣ s , a ) P(s' | s, a)P(ss,a)。状态的变化只取决于当前状态s ss和智能体的动作a aa
  • 奖励函数R ( s , a ) R(s, a)R(s,a)
  • 目标:寻找一个策略π ( a ∣ s ) \pi(a|s)π(as)最大化累计回报。

2.2 多智能体:马尔可夫博弈 (Markov Games)

也称为随机博弈 (Stochastic Games)。元组变成了:⟨ N , S , { A i } i ∈ N , P , { R i } i ∈ N , γ ⟩ \langle \mathcal{N}, \mathcal{S}, \{\mathcal{A}^i\}_{i \in \mathcal{N}}, P, \{R^i\}_{i \in \mathcal{N}}, \gamma \rangleN,S,{Ai}iN,P,{Ri}iN,γ

这里发生了三个关键变化:

  1. 智能体集合N = { 1 , … , N } \mathcal{N} = \{1, \dots, N\}N={1,,N},我们现在有N NN个玩家。
  2. 联合动作 (Joint Action):环境的状态转移不再取决于一个动作,而是取决于所有智能体的联合动作u = ⟨ a 1 , … , a N ⟩ \mathbf{u} = \langle a^1, \dots, a^N \rangleu=a1,,aN
    P ( s ′ ∣ s , u ) = P ( s ′ ∣ s , a 1 , a 2 , … , a N ) P(s' | s, \mathbf{u}) = P(s' | s, a^1, a^2, \dots, a^N)P(ss,u)=P(ss,a1,a2,,aN)
  3. 奖励差异:每个智能体可能有自己独立的奖励函数R i ( s , u ) R^i(s, \mathbf{u})Ri(s,u)
    • 完全合作 (Cooperative):所有人的奖励一样,R 1 = R 2 = ⋯ = R N R^1 = R^2 = \dots = R^NR1=R2==RN
    • 完全竞争 (Zero-Sum):你赢即我输,R 1 = − R 2 R^1 = -R^2R1=R2
    • 混合 (Mixed):既有合作又有竞争(如足球比赛中,队内合作,队外竞争)。

3. 核心挑战一:环境的非平稳性 (Non-Stationarity)

这是面试中最常被问到的 MARL 难点,也是导致单智能体算法(如 DQN, PPO)直接套用到 MARL 效果极差的根本原因。

3.1 什么是“移动的靶子”?

在单智能体 RL 中,环境的状态转移概率P ( s ′ ∣ s , a ) P(s'|s,a)P(ss,a)是客观存在的物理规律,是平稳的 (Stationary)

但在 MARL 中,对于智能体i ii来说,它的环境包含了两部分:物理环境 + 其他智能体
当我们分析智能体i ii的状态转移时,实际上隐含了其他智能体的策略π − i \pi^{-i}πi
P ( s ′ ∣ s , a i ) = ∑ u − i P ( s ′ ∣ s , a i , u − i ) ⋅ π − i ( u − i ∣ s ) P(s' | s, a^i) = \sum_{\mathbf{u}^{-i}} P(s' | s, a^i, \mathbf{u}^{-i}) \cdot \pi^{-i}(\mathbf{u}^{-i} | s)P(ss,ai)=uiP(ss,ai,ui)πi(uis)

问题来了:在训练过程中,其他智能体π − i \pi^{-i}πi也在不断学习、更新参数。

  • 昨天,Agent A 往左走,Agent B 会避让它(环境反馈好)。
  • 今天,Agent B 升级了策略,决定硬刚,Agent A 往左走撞车了(环境反馈变了)。

对于 Agent A 来说,同样的s ssa i a^iai,得到的反馈分布却随时间在变。这就是非平稳性

3.2 为什么 Experience Replay 会失效?

DQN 极其依赖经验回放池 (Experience Replay Buffer)。其假设是:历史数据( s , a , r , s ′ ) (s, a, r, s')(s,a,r,s)在当前依然有效,依然服从环境的分布。

但在 MARL 中:

  • Buffer 里的旧数据是基于旧的对手策略生成的。
  • 当前的对手策略已经变了。
  • 如果拿旧数据来训练现在的 Agent,相当于教它“如何打败昨天的对手”,而不是今天的对手。

解决方案思路:这就是为什么会有MADDPGMAPPO(Centralized Training Decentralized Execution, CTDE)架构。通过在训练时引入全局信息,把“不平稳”的对手动作显式地输入到 Critic 中,让环境重新变得“平稳”。


4. 核心挑战二:维度的诅咒与组合爆炸

在单智能体中,动作空间是∣ A ∣ |\mathcal{A}|A
在多智能体中,联合动作空间是指数级增长的:∣ A ∣ N |\mathcal{A}|^NAN

  • 假设有 10 个智能体,每个智能体只有 4 个动作。
  • 联合动作空间大小为4 10 ≈ 1 , 000 , 000 4^{10} \approx 1,000,0004101,000,000

这意味着 Q-table 根本存不下,甚至普通的神经网络 Q-Network 要探索完所有动作组合也变得不可能。

后果
智能体很难学到精细的配合,往往陷入局部最优。例如,两个机器人需要同时按按钮才能开门,随机探索到“同时按下”的概率极低,导致它们可能永远学不会开门。


5. 核心挑战三:信息结构与信誉分配

5.1 局部观测 (Partial Observability)

在 MARL 中,通常假设智能体只能看到局部视野(Local Observationo i o^ioi),而不是全局状态S SS。这使得问题变成了Dec-POMDP(Decentralized Partially Observable MDP)。智能体必须学会沟通(Communication)或推断对手意图。

5.2 信誉分配难题 (Credit Assignment)

当团队获得胜利(Reward = +1)时,是谁的功劳?

  • 是前锋射门进球的功劳?
  • 还是后卫成功抢断的功劳?
  • 或者是那个一直在场上梦游的 Agent 只是“躺赢”?

这就是Multi-Agent Credit Assignment问题。如果无法准确分配奖励,就会出现Lazy Agent(偷懒智能体),它发现自己什么都不做也能拿团队奖励,从而导致策略退化。

  • 经典算法 COMA (Counterfactual Multi-Agent Policy Gradients)就是通过计算“如果我换个动作,团队得分会变多少”来解决这个问题的。

6. 总结与展望

从单智能体到多智能体,绝不仅仅是1 → N 1 \to N1N的数量增加,而是从优化问题 (Optimization)变成了博弈问题 (Game Theory)

维度单智能体 RL (SARL)多智能体 RL (MARL)
环境特性平稳 (Stationary)非平稳 (Non-Stationary)
优化目标最大化自身回报纳什均衡 / 帕累托最优 / 团队最大化
状态转移P ( s ′ ∣ s , a ) P(s'|s, a)P(ss,a)P ( s ′ ∣ s , u ) P(s'|s, \mathbf{u})P(ss,u)(依赖所有人)
主要痛点探索与利用信誉分配、非平稳性、维度爆炸

掌握 MARL 的基础概念后,下一步你可以深入研究CTDE 架构(如 QMIX, MAPPO),这是目前解决上述挑战最主流的框架。


*希望这篇文章能帮你建立起 MARL 的世界观!如有疑问,欢迎评论区讨论 *

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 0:53:20

传统计算 vs AI生成:排列组合效率大比拼

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个性能对比程序,分别实现手动计算的排列组合算法和使用AI优化后的算法。程序应能处理相同输入(如10个元素的5组合),并测量两种…

作者头像 李华
网站建设 2026/6/23 20:55:24

把 SAPUI5 版本管明白:运行时与工具强耦合、多版本并存、升级与下线风险一篇讲透

在 SAP Fiori 的世界里,很多团队把注意力放在页面长什么样、交互顺不顺,却常常低估了一个更底层、更容易踩坑的主题:SAPUI5 版本。它看起来只是 1.26.4 这种数字组合,实际背后牵扯到运行时与开发工具的配套关系、系统景观里补丁策略、云端 CDN 的版本存活周期,以及 Fiori …

作者头像 李华
网站建设 2026/6/24 4:15:37

ST-Link在工业控制中的5个典型应用案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个工业级ST-Link应用项目,包含:1. 基于Modbus协议的PLC通信模块 2. 电机控制调试接口 3. 工业传感器数据采集功能 4. 故障诊断日志系统 5. 安全认证机…

作者头像 李华
网站建设 2026/6/24 16:36:45

Apache Airflow在电商数据分析中的实战应用

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商数据分析平台,使用Apache Airflow编排每日销售数据ETL流程。包括从多个数据源(MySQL、API、日志文件)提取数据,进行数据清洗和转换,…

作者头像 李华
网站建设 2026/6/23 20:02:34

设计模式深度解析:策略模式、责任链模式与模板模式

临时插入一个额外知识换换思路,认识一下几个业务中常用的设计模式,尽可能讲明白、多多点赞支持~引言在软件开发过程中,设计模式是解决常见问题的经典方案。今天我们将深入探讨三种常用的行为型设计模式:策略模式、责任链模式和模板…

作者头像 李华