带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)
概述
前述自然梯度方法(如 TRPO、PPO)均为随机演员–评论家(stochastic actor–critic)结构,因此属于 on-policy 学习。
相比之下,off-policy 方法(如 DQN、DDPG)能通过经验回放(experience replay)复用旧样本,提高样本效率,但通常方差更高、稳定性更差。
@Wang2017 提出 ACER(Actor–Critic with Experience Replay) 算法,融合了以下关键技术:
- off-policy Retrace 算法 [@Munos2016];
- 多线程并行训练(借鉴自 A3C);
- 重要性采样截断 + 偏差修正;
- 双头网络结构(stochastic dueling network);
- 高效的 信赖域策略优化(TRPO)。
ACER 可视为 A3C 的 off-policy 对应版本,兼具稳定性与高样本利用率。
混合 on-policy 与 off-policy 学习
ACER 在每个训练循环中交替执行 on-policy 与 off-policy 学习:
ACER 主循环:
- 使用当前策略采样一条轨迹 \(\tau\);
- 对 \(\tau\) 执行 on-policy 学习;
- 将 \(\tau\) 存入经验回放池;
- 从回放池采样 \(n\) 条轨迹 \(\tau_k\);
- 对每条采样轨迹执行 off-policy 学习。
这种混合方式类似于自模仿学习(Self-Imitation Learning, SIL) [@Oh2018]。
Retrace 值评估
ACER 依赖 Retrace 算法进行 off-policy 值估计。
其基本 TD 形式为:
其中:
- \(c_s = \lambda \min(1, \frac{\pi_\theta(s_s,a_s)}{b(s_s,a_s)})\) 为截断重要性权重;
- \(\delta_{t'} = r_{t'+1} + \gamma V(s_{t'+1}) - V(s_{t'})\) 为 TD 误差。
定义目标值 \(Q^\text{ret}\):
经递推化简,可得:
而状态值可由动作期望计算:
这使得在离散动作空间中无需显式估计 \(V(s)\)。
网络结构
ACER 采用“双头”神经网络结构:
- Actor(策略网络):输入状态 \(s\),输出动作分布 \(\pi_\theta(s,a)\);
- Critic(价值网络):输入状态 \(s\),输出每个动作的 Q 值向量 \(Q_\varphi(s,a)\)。
两者共享大部分特征提取层,仅在最后分支输出两个向量(类似Dueling Network [@Wang2016])。
演员与评论家更新
评论家(Critic)损失:
演员(Actor)梯度:
其中 \(\rho_b\) 为行为策略的状态–动作分布。
重要性采样截断与偏差修正
直接使用比率 \(\rho_t = \frac{\pi_\theta(s_t,a_t)}{b(s_t,a_t)}\) 容易导致梯度发散。
ACER 对其上限进行截断:
若直接使用 \(\bar{\rho}_t\) 会引入偏差,故 ACER 增加偏差修正项:
第一项:截断后的主梯度;
第二项:偏差修正,仅当 \(\rho_t(a) > c\) 时激活。
此外,为减小方差,将 \(Q\) 转换为优势形式:
高效的信赖域优化(Efficient TRPO)
即使有 Retrace 与修正项,方差仍较大。
因此 ACER 对演员参数引入轻量级 TRPO 更新,并使用以下技术:
-
目标演员网络(target actor):
缓慢追踪主网络:\[\theta' \leftarrow \alpha\theta' + (1-\alpha)\theta \] -
信赖域更新(trust region update):
在分布统计量空间中约束 KL 散度:\[\min_z ||\hat{g_t}^{ACER} - z||^2 \quad \text{s.t.} \; \nabla_{\Phi_\theta(s_t)} D_{KL}(f(\cdot|\Phi_{\theta'}(s_t))||f(\cdot|\Phi_\theta(s_t)))^T z < \delta \]其解析解:
\[z^* = \hat{g_t}^{ACER} - \max\left(0,\frac{k^T\hat{g_t}^{ACER}-\delta}{||k||^2}\right)k \]其中 \(k = \nabla_{\Phi_\theta} D_{KL}\),
\(\hat{g_t}^{ACER}\) 为局部梯度估计。该更新仅作用于分布统计量 \(\Phi_\theta(s)\),
避免对整个网络二次反向传播,计算高效。 -
目标评论家网络(target critic):
计算 \(V_{\varphi'}(s)\),进一步降低方差。
总结
ACER 综合了以下创新:
模块 | 作用 |
---|---|
Retrace 值评估 | 稳定的多步 off-policy 估计 |
截断 + 偏差修正 | 降低方差且保持无偏 |
目标网络(Actor/Critic) | 平滑学习过程 |
高效 TRPO 更新 | 限制策略变化 |
双头网络结构 | 共享特征、提升效率 |
在 Atari 与 MuJoCo 等任务中,ACER 在性能与样本效率上均超越 A3C、DDPG 等算法。
实验表明,上述每个组成部分(尤其是截断修正与 Retrace)对性能提升都至关重要。