【强化学习理论】基于策略的强化学习——策略梯度算法

最新推荐文章于 2025-04-26 00:39:09 发布

Mocode

最新推荐文章于 2025-04-26 00:39:09 发布

阅读量722

点赞数 6

文章标签：人工智能深度学习强化学习策略梯度

本文链接：https://blog.csdn.net/Mocode/article/details/143489215

版权

【强化学习理论】基于策略的强化学习——策略梯度算法

基于策略的强化学习方法通过计算策略，即动作的分布 $\pi(a|s)$ 决定在状态 $s$ 选择动作 $a$ 。例如 $\pi(a|s)=[0.5, 0.3, 0.2]$ ，表示选择动作 $a_1$ 的概率为0.5，选择动作 $a_2$ 的概率为0.3，选择动作 $a_3$ 的概率为0.2。**策略梯度算法（policy gradient，PG）**是经典的基于策略的强化学习方法，本文对策略梯度算法进行介绍。

注：本文是在观看【王树森】深度强化学习(DRL)P3后的整理。

1. 如何计算策略 $\pi(a|s)$ ？

基于策略的强化学习方法需要计算策略。在深度强化学习中，使用神经网络近似动作分布，示意图如下图所示。此时神经网络称为策略网络，记作 $\pi(a|s;\theta)$ ， $\theta$ 表示策略网络的参数。

在这里插入图片描述

图源【王树森】深度强化学习(DRL)P3

良好的策略的目标是让所有状态的价值尽量高，则神经网络优化的目标函数 $\mathcal{J}(\theta)$ 可定义为：
$\mathcal{J}(\theta) = \mathbb{E}_{s \in \mathcal{S}} \left[ V^{\pi}(s; \theta) \right]$
其中， $\mathcal{S}$ 表示强化学习环境的状态空间。假设环境的动作空间为离散型， $V^{\pi}(s;\theta)$ 可作如下定义并根据期望的定义展开：
$\begin{aligned} V^{\pi}(s;\theta) & = \mathbb{E}_{a \sim \pi(\cdot|s;\theta)} \left[ Q^{\pi}(s,a) \right] \\ & = \sum_{a} \pi(a|s;\theta) Q^{\pi}(s,a) \end{aligned}$

此处涉及状态价值函数与动作价值函数的关系，可见【强化学习理论】状态价值函数与动作价值函数系列公式推导。

2. 如何优化策略网络的参数？

使用梯度上升的方式对策略网络的参数 $\theta$ 进行更新。对于训练策略网络的具体样本给定的状态 $s$ ，更新式子如下：
$\theta \leftarrow \theta + \alpha \cdot \frac{\partial V^{\pi}(s;\theta)}{\partial \theta}$
也有一种写法是 $\theta \leftarrow \theta + \alpha \cdot \nabla_{\theta}V^{\pi}(s; \theta)$ 。其中， $\alpha$ 是网络学习率。 $\nabla_{\theta}V^{\pi}(s; \theta)$ 即为策略梯度。此处的 $\nabla_{\theta}V^{\pi}(s; \theta)$ 其实是随机梯度，随机性来源于 $s$ 。

3. 如何计算策略梯度？

根据 $V^{\pi}(s;\theta)$ 的定义，策略梯度可做如下展开：
$\begin{aligned} \frac{\partial V^{\pi}(s;\theta)}{\partial \theta} &= \frac{\partial \sum_{a} \pi(a|s;\theta) Q^{\pi}(s,a)}{\partial \theta} &\\ &= \sum_a \frac{\partial \pi(a|s;\theta) Q^{\pi}(s,a)}{\partial \theta} &\\ &= \sum_a Q^{\pi}(s,a) \textcolor{blue}{\frac{\partial \pi(a|s;\theta)}{\partial \theta}} &\text{(Form 1)}\\ &= \sum_a Q^{\pi}(s,a) \textcolor{blue}{\pi(a|s;\theta) \frac{\partial \ln \pi(a|s;\theta)}{\partial \theta}} &\\ &= \mathbb{E}_{a\sim \pi(\cdot|s,\theta)} \left[ Q^{\pi}(s,a) \frac{\partial \ln \pi(a|s; \theta)}{\partial \theta} \right] &\text{(Form 2)} \end{aligned}$

因为对不同动作 $a$ 求和与求偏导对象 $\theta$ 无关，因此可以将求和运算从求偏导中提取出来，第一行转化为第二行；

假设 $Q^{\pi}(s,a)$ 与策略网络的参数 $\theta$ 无关（但严格来讲，这种假设不够严谨，因为 $Q^{\pi}(s,a)$ 与策略 $\pi(a|s; \theta)$ 有关），因此可以将其从求偏导中提取出来，第二行转化为第三行，得到求解策略梯度的第一种形式Form 1；

由于根据链式法则， $\pi(a|s;\theta) \frac{\partial \ln \pi(a|s;\theta)}{\partial \theta} = \pi(a|s;\theta) \frac{1}{\pi(a|s;\theta)} \frac{\partial \pi(a|s;\theta)}{\partial \theta} = \frac{\partial \pi(a|s;\theta)}{\partial \theta}$ ，第三行转化为第四行；

根据对离散型随机变量求期望的计算方式，第四行转化为第五行，得到求解策略梯度的第二种形式Form 2。

离散型动作空间情况下计算策略梯度

在动作空间是离散的情况下，可以使用Form 1式子计算策略梯度：计算所有动作的相应值并相加。即假设动作空间大小为3，令 $f(a;\theta) = Q^{\pi}(s,a) \frac{\partial \pi(a|s;\theta)}{\partial \theta}$ ，则 $\frac{\partial V^{\pi}(s;\theta)}{\partial \theta} = f(a_1; \theta) + f(a_2; \theta) + f(a_3; \theta)$ 。

连续型动作空间情况下计算策略梯度

在动作空间是连续的情况下，无法列举出所有可能的动作，因此无法使用Form 1式子。此时可以使用Form 2式子，但是由于动作分布的概率密度函数 $\pi(a|s;\theta)$ 比较复杂，难以计算关于 $a$ 的积分，因此使用Form 2式子的同时还会使用蒙特卡洛近似来近似Form 2式子的计算。

蒙特卡洛近似是指从分布中抽样多个随机样本以近似期望。

具体而言，从策略函数中采样动作 $\hat{a}$ ， $\hat{a} \sim \pi(\cdot|s;\theta)$ ，令 $g(\hat{a};\theta) = Q^{\pi}(s,\hat{a}) \frac{\partial \ln \pi(\hat{a}|s; \theta)}{\partial \theta}$ ， $g(\hat{a};\theta)$ 是策略梯度的无偏估计，可以用于近似策略梯度，则 $\frac{\partial V^{\pi}(s;\theta)}{\partial \theta} = \mathbb{E}_{\hat{a} \sim \pi(\cdot|s,\theta)}[g(\hat{a};\theta)]$ 。

这种计算方式也适用于离散型动作空间的情况。

4. 策略梯度算法流程

获得当前时刻状态 $s_t$
从策略网络 $\pi(\cdot|s_t;\theta)$ 中随机采样得到动作 $a_t$
计算 $q_t \approx Q^{\pi}(s_t,a_t)$ （使用某种估计方法）
计算策略梯度
- 计算网络参数的梯度 $\mathrm{d}_{\theta, t} = \frac{\partial \ln \pi(a_t|s_t;\theta)}{\partial \theta}$
- 计算策略梯度 $\mathrm{g}(a_t;\theta_t) = q_t \cdot \mathrm{d}_{\theta,t}$
更新策略网络的参数 $\theta_{t+1} \leftarrow \theta_t + \alpha \cdot \mathrm{g}(a_t;\theta_t)$

5. 在策略梯度算法中如何计算状态动作价值？

这一节对应于上一节策略梯度算法流程中计算 $Q^{\pi}(s_t,a_t)$ 的步骤。这一步计算有两种方法，一种是基于蒙特卡洛近似的方法，另一种是基于神经网络拟合的方法。

基于蒙特卡洛近似计算状态动作价值——REINFORCE

使用当前策略采样得到轨迹 $s_1, a_1, r_1, ..., s_T, a_T, r_T$
为轨迹中的每一个 $s_t,a_t)$ 计算折扣回报 $u_t = \sum_{k=t}^T \gamma^{k-t} r_k$
由于 $Q^{\pi}(s_t, a_t) = \mathbb{E}[U_t|S_t=s_t,A_t=a_t]$ ，可以使用 $u_t$ 近似 $Q^{\pi}(s_t, a_t)$ ，即 $q_t = u_t$

基于神经网络拟合计算状态动作价值——Actor-Critic

暂略。

参考

【王树森】深度强化学习(DRL)P3

第 9 章策略梯度算法

【强化学习理论】基于策略的强化学习——策略梯度算法

【强化学习理论】基于策略的强化学习——策略梯度算法

1. 如何计算策略 π ( a ∣ s ) \pi(a|s) π(a∣s)？

2. 如何优化策略网络的参数？

3. 如何计算策略梯度？

离散型动作空间情况下计算策略梯度

连续型动作空间情况下计算策略梯度

4. 策略梯度算法流程

5. 在策略梯度算法中如何计算状态动作价值？

基于蒙特卡洛近似计算状态动作价值——REINFORCE

基于神经网络拟合计算状态动作价值——Actor-Critic

参考

1. 如何计算策略 $\pi(a|s)$ ？