当前位置: 首页 > news >正文

2.4 DQN 变体(Rainbow)

DQN 变体(Rainbow)


双重 DQN(Double DQN)

在原始 DQN 中,经验回放与目标网络的引入使得 CNN 能够在强化学习中成功训练,但也带来了两个缺点:

  1. 学习速度显著降低,样本复杂度增高;
  2. 稳定性较差,不同运行结果可能不同。

@vanHasselt2015 提出了 Double DQN 以解决 Q 值的过估计(overestimation)问题。

在标准 DQN 中,目标值为:

\[y = r(s, a, s') + \gamma \max_{a'} Q_{\theta'}(s', a') \]

由于 \(\max\) 操作,若某动作被高估,其 Q 值会被进一步放大,并传播至前面的状态。
@vanHasselt2010 证明这种高估在标准 Q-learning 中是必然的。

ddqn-results2

双重学习思想:使用两个网络——一个选择贪婪动作,另一个评估其 Q 值。

应用于 DQN 时,可直接利用已有的两个网络:

  • 训练网络 \(\theta\):用于选择贪婪动作
    \(a^* = \arg\max_{a'} Q_\theta(s', a')\)
  • 目标网络 \(\theta'\):用于评估该动作的 Q 值

目标更新为:

\[y = r(s, a, s') + \gamma Q_{\theta'}(s', \arg\max_{a'} Q_\theta(s', a')) \]

这一修改显著提升了性能与稳定性。


优先经验回放(Prioritized Experience Replay)

原始 DQN 的经验回放是均匀采样的,这意味着“无趣”样本与“重要”样本被选中的概率相同,浪费了训练资源。
@Schaul2015 提出优先经验回放(PER):按照 TD 误差大小优先采样。

\[\delta = r(s, a, s') + \gamma Q_{\theta'}(s', \arg\max_{a'} Q_\theta(s', a')) - Q_\theta(s, a) \]

采样概率为:

\[P(k) = \frac{(|\delta_k| + \epsilon)^\alpha}{\sum_k (|\delta_k| + \epsilon)^\alpha} \]

\(\alpha\) 控制采样强度。
这种机制更频繁地使用“出乎意料”的转移样本,从而加速学习。

per_results2


对偶网络(Dueling Network)

在经典 DQN 中,一个网络直接预测所有动作的 Q 值:

\[Q_\theta(s, a) \]

但动作值由两部分组成:

  • 状态本身的价值 \(V^\pi(s)\)
  • 动作相对于该状态的优势(advantage) \(A^\pi(s,a)\)

\[A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) \]

因此:

\[Q^\pi(s, a) = V^\pi(s) + A^\pi(s, a) \]

这种分解的好处:

  • 在“坏状态”下(\(V(s)\) 低)无需探索每个动作;
  • 优势函数的方差小于 Q 值,更易学习;
  • 网络可更稳定地收敛。

@Wang2016 在 Double DQN + PER 框架中引入对偶结构(Dueling DQN):

\[Q_{\theta, \alpha, \beta}(s,a) = V_{\theta,\beta}(s) + A_{\theta,\alpha}(s,a) \]

为避免歧义(任意常数偏移),对优势进行归一化:

\[Q_{\theta, \alpha, \beta}(s,a) = V_{\theta,\beta}(s) + (A_{\theta,\alpha}(s,a) - \frac{1}{|\mathcal{A}|}\sum_a A_{\theta,\alpha}(s,a)) \]

该结构在多数 Atari 游戏中显著优于 DDQN-PER。

dueling-result


分类 DQN(Categorical DQN / C51)

所有基于 Bellman 方程的 RL 方法都使用期望算子

\[Q^\pi(s,a) = \mathbb{E}[R(s,a)] \]

但这忽略了回报的方差。
@Bellemare2017 提出分布式 DQN(Distributional DQN):学习回报的概率分布而非均值。

distributionallearning

假设回报范围为 \([V_\text{min},V_\text{max}]\),划分为 \(N\) 个离散点(原子)\(z_i\)
网络输出每个原子的概率 \(p_i(s,a)\)(softmax 归一化):

\[p_i(s,a;\theta) = \frac{e^{f_i(s,a;\theta)}}{\sum_j e^{f_j(s,a;\theta)}} \]

则回报分布为:

\[\mathcal{Z}_\theta(s,a) = \sum_i p_i(s,a;\theta)\delta_{z_i} \]

对应的 Q 值即为其期望:

\[Q_\theta(s,a) = \sum_i p_i(s,a;\theta) z_i \]

学习目标是最小化预测分布与 Bellman 更新分布间的 KL 散度:

\[\mathcal{L}(\theta) = D_\text{KL}(\Phi \mathcal{T}\mathcal{Z}_{\theta'}(s,a) \| \mathcal{Z}_\theta(s,a)) \]

distributionallearning3

C51 在多数 Atari 游戏上优于 DQN,既提升性能又降低样本复杂度。


噪声 DQN(Noisy DQN)

传统 DQN 使用 \(\epsilon\)-greedy 或 softmax 探索机制,但这种全局噪声对所有状态一视同仁。
@Fortunato2017 提出在网络参数中注入噪声(参数噪声,Parameter Noise)。

假设参数服从高斯分布:

\[\theta \sim \mathcal{N}(\mu_\theta, \sigma_\theta^2) \]

在每次前向传播时采样:

\[\theta = \mu_\theta + \sigma_\theta \epsilon, \quad \epsilon \sim \mathcal{N}(0,1) \]

未访问状态的不确定性(\(\sigma_\theta\) 大)→ 更多探索;
已掌握状态的不确定性小 → 稳定利用。

ddpg-parameternoise

Noisy DQN 实现了自适应探索,无需额外调度,显著提升性能。

noisydqn2


彩虹 DQN(Rainbow DQN)

DQN 经过多年发展,形成了多种增强版本:

改进方法 关键思想
Double DQN [@vanHasselt2015] 分离动作选择与评估,避免 Q 值过估计
PER [@Schaul2015] 按 TD 误差加权采样经验
Dueling DQN [@Wang2016] 拆分状态值与优势值学习
Categorical DQN [@Bellemare2017] 学习回报分布而非均值
n-step Returns [@Sutton2017] 融合未来 \(n\) 步回报以降低偏差
Noisy DQN [@Fortunato2017] 参数层面噪声,实现自适应探索

@Hessel2017 将上述方法整合成统一架构——Rainbow DQN
其综合性能超过任一单独变体。

rainbow


深度循环 Q-learning(DRQN)

Atari 游戏是部分可观测 MDP(POMDP):单帧缺乏速度等信息。
DQN 通过堆叠最近4帧缓解此问题,但仍存在局限:

  1. 存储消耗大;
  2. 无法捕捉长期依赖;
  3. 在需规划的任务(如 Montezuma’s Revenge)上表现差。

drqn-architecture2

@Hausknecht2015 将 DQN 中的一层全连接层替换为 LSTM 层,输入为单帧,形成 DRQN
LSTM 学习保留关键历史信息,从而更好地处理部分可观测任务。

但 LSTM 仍受限于截断反向传播(Truncated BPTT),无法学习超出截断长度的依赖,并显著增加训练时间。
尽管如此,DRQN 提供了一种更优雅的解决方案,让网络自行决定长期依赖的时间跨度。

drqn4

http://www.hskmm.com/?act=detail&tid=29562

相关文章:

  • Emacs折腾日记(三十二)——org mode的基本美化
  • 2025 工业风机十大品牌全景解析报告:覆盖离心风机,防爆风机,矿用风机的最新推荐
  • 2.3 深度 Q 网络(Deep Q-Network, DQN)
  • Linux存储媒介devmount
  • Linux系统目录(文件)结构
  • 实用指南:如何读懂Mach-O:构建macOS和iOS应用安全的第一道认知防线
  • vim配置使用
  • shell高级
  • shell流程控制
  • shell展开shell数组
  • shell排错
  • 原木
  • 格式化输出与文本处理
  • 2025年10月镀锌卷板厂家最新推荐排行榜,有花镀锌卷板,无花镀锌卷板,高锌层镀锌卷板,批发镀锌卷板公司推荐
  • React 19.2 重磅更新!这几个新特性终于来了
  • Akka.NET高性能分布式Actor框架完全指南
  • 基于Docker搭建MySQL Cluster
  • 2025 年抗氧剂厂家最新推荐排行榜,聚酯防黄变抗氧剂,透明膜防晶点抗氧剂,PC聚碳防黄变抗氧剂公司推荐!
  • PaddleX服务化部署精度低于命令行调用的原因及解决方案 - 指南
  • 某中心与华盛顿大学公布机器人研究奖项与学者名单
  • 会话跟踪方案
  • 阻塞、非阻塞、同步、异步的区别是什么?
  • 如何防范员工泄露数据给 AI?2025年选型与落地实战版
  • Linux文本编辑三剑客之grep
  • Linux文本编辑三剑客之sed
  • 做了项目经理才发现:上台发言,其实都有套路
  • 占位符
  • 什么是IO多路复用?
  • 进程、线程和协程之间的区别和联系
  • 挣点小钱的副业(附带新手教程)0元的快乐