当前位置：首页 > news >正文

3.1 策略梯度方法（Policy Gradient Methods）

news 2025/10/12 20:45:26

策略梯度方法（Policy Gradient Methods）

背景

在基于值函数的方法（如 DQN）中，直接逼近 Q 值存在多种问题：

Q 值无界：可能取任意实数（正或负），输出层必须是线性的；
Q 值方差大：不同 \((s,a)\) 对的 Q 值差异巨大，神经网络难以拟合；
仅适用于离散动作空间：在连续动作空间中无法直接求最大动作。

因此，可直接逼近策略 \(\pi_\theta(s,a)\)，即用神经网络输出动作概率或连续控制信号。
这类网络称为参数化策略（Parameterized Policy）。

对离散动作空间：输出层通常为 softmax，表示每个动作的概率；
对连续动作空间：输出层可直接生成动作值（如机械臂角度）。

策略搜索（Policy Search）

策略搜索直接学习参数化策略 \(\pi_\theta\)，目标是最大化由该策略生成的轨迹的期望回报：

\[J(\theta) = \mathbb{E}_{\tau \sim \rho_\theta}[R(\tau)] = \mathbb{E}_{\tau \sim \rho_\theta}\left[\sum_{t=0}^T \gamma^t r(s_t, a_t, s_{t+1})\right] \]

其中轨迹 \(\tau = (s_0,a_0,s_1,a_1,\ldots,s_T,a_T)\) 的概率为：

\[\rho_\theta(\tau) = p_0(s_0) \prod_{t=0}^T \pi_\theta(s_t,a_t) p(s_{t+1}|s_t,a_t) \]

目标函数可表示为积分形式：

\[J(\theta) = \int_\tau \rho_\theta(\tau) R(\tau) d\tau \]

利用 Monte Carlo 采样，可近似计算目标函数：

\[J(\theta) \approx \frac{1}{N} \sum_{i=1}^N R(\tau_i) \]

但这种方法存在高方差、样本效率低、仅限回合式任务等问题。

为优化 \(J(\theta)\)，我们使用梯度上升：

\[\theta \leftarrow \theta + \eta \nabla_\theta J(\theta) \]

关键问题是如何估计策略梯度 \(\nabla_\theta J(\theta)\)。
REINFORCE 与 DPG（确定性策略梯度）等算法提供了相应的估计方法。

REINFORCE 算法

策略梯度推导

@Williams1992 提出利用对数技巧（log-trick）估计策略梯度。

从定义出发：

\[\nabla_\theta J(\theta) = \nabla_\theta \int_\tau \rho_\theta(\tau) R(\tau) d\tau = \int_\tau (\nabla_\theta \rho_\theta(\tau)) R(\tau) d\tau \]

利用恒等式：

\[\nabla_\theta \rho_\theta(\tau) = \rho_\theta(\tau) \nabla_\theta \log \rho_\theta(\tau) \]

得到：

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \rho_\theta}[\nabla_\theta \log \rho_\theta(\tau) R(\tau)] \]

展开 \(\log \rho_\theta(\tau)\)：

\[\log \rho_\theta(\tau) = \log p_0(s_0) + \sum_{t=0}^T \log \pi_\theta(s_t,a_t) + \sum_{t=0}^T \log p(s_{t+1}|s_t,a_t) \]

由于环境动态不依赖于 \(\theta\)，梯度简化为：

\[\nabla_\theta \log \rho_\theta(\tau) = \sum_{t=0}^T \nabla_\theta \log \pi_\theta(s_t,a_t) \]

因此：

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \rho_\theta}\left[\sum_{t=0}^T \nabla_\theta \log \pi_\theta(s_t,a_t) R(\tau)\right] \]

REINFORCE 算法流程

使用当前策略 \(\pi_\theta\) 采样 \(N\) 条轨迹 \(\{\tau_i\}\)；
计算每条轨迹的回报 \(R(\tau_i)\)；
估计策略梯度：

\[\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \sum_{t=0}^T \nabla_\theta \log \pi_\theta(s_t,a_t) R(\tau_i) \]
更新策略：

\[\theta \leftarrow \theta + \eta \nabla_\theta J(\theta) \]