详解受约束的强化学习(二、理解学习)-CSDN博客

本文链接：https://blog.csdn.net/hooksten/article/details/148068704

在这里插入图片描述
约束策略优化CPO来对系统进行优化，可以仔细阅读一下这篇论文。

上节回顾

MDP与CMDP

通过上次的介绍我们已经了解了什么是CMDP了，并且从数学的角度来定义了CMDP问题，回顾一下，就是传统的MDP是找到最优策略，来最大化期望累计奖励（最大化期望回报）：
$\pi^* = \arg \max J(\pi),$
而在CMDP中，我们要找到最优策略，来最大化累计奖励的同时，满足一定的约束条件：
$\pi^* = \arg \max_{\pi \in \Pi_C} J(\pi),$
$J(\pi)$ 是策略 $\pi$ 的期望奖励（目标函数）,表示为
$J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^\infty \gamma^t R(s_t, a_t) \right],$
$\tau = (s_0, a_0, s_1, a_1, \dots)$ 是策略 $\pi$ 产生的轨迹。
$R(s_t, a_t)$ 是时刻 $t$ 的即时奖励。
$\gamma \in (0, 1)$ 是折扣因子。
$\Pi_C$ 是满足约束条件的策略集合，一般可以用辅助成本函数 $J_{C_i}(\pi)$ 来表示。定义为：
$\Pi_C = { \pi \in \Pi \mid \forall i, J_{C_i}(\pi) \leq d_i },$
$J_{C_i}(\pi)$ 是第 $i$ 个约束的期望成本。
$d_i$ 是第 $i$ 个约束的上界。
简单来说，CPO 的目标是找到一个策略 $\pi^*$ ，使得奖励最大化，同时每个约束 $J_{C_i}(\pi) \leq d_i$ 都得到满足。

举例

举个例子：
想象一个机器人要学会在工厂里搬运物品（最大化奖励：搬运的物品数量）。但它必须满足两个约束：

不能撞到工人（安全约束，成本函数 $C_1$ 可能是在撞到工人时记为1，否则为0）。
电量消耗不能超过一定值（资源约束，成本函数 $C_2$ 可能是每次移动的电量消耗）。
CMDP的目标是让机器人找到一个策略，既能搬运尽可能多的物品（最大化 $J(\pi)$ ），又要确保撞人次数的期望值和电量消耗的期望值分别不超过 $d_1$ 和 $d_2$ 。这就是对它的安全、合规性作出的要求。

约束策略优化

论文的第5部分提出了约束策略优化（CPO）算法，用于在约束马尔可夫决策过程（CMDP）框架下优化强化学习策略。CMDP在标准马尔可夫决策过程（MDP）基础上增加了约束条件，例如安全性约束。CPO的目标是在最大化期望奖励的同时，保证训练过程中的每一步策略都满足约束。接下来我们就具体理解一下第五和第六部分的重要思想.

第5部分：背景与问题设定

在强化学习中，策略搜索算法通过迭代更新参数化的策略（例如神经网络）来优化期望奖励 $J(\pi)$ ，定义为：

$J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) \right]$

其中， $\gamma \in [0,1)$ 是折扣因子， $R(s_t, a_t, s_{t+1})$ 是奖励函数， $\tau$ 表示轨迹 $(s_0, a_0, s_1, \ldots)$ 。

在CMDP中，除了最大化 $J(\pi)$ ，还需要满足一组约束 $J_{C_i}(\pi) \leq d_i$ ，其中 $C_i$ 是辅助成本函数（例如表示不安全行为的成本）， $d_i$ 是约束阈值。 $J_{C_i}(\pi)$ 定义为：

$J_{C_i}(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t C_i(s_t, a_t, s_{t+1}) \right]$

标准局部策略搜索（local policy search）通过限制新策略 $\pi$ 与当前策略 $\pi_k$ 之间的距离来更新策略：

$\pi_{k+1} = \arg \max_{\pi} J(\pi) \quad \text{s.t.} \quad D(\pi, \pi_k) \leq \delta$

其中 $D(\pi, \pi_k)$ 是距离度量（如KL散度）， $\delta$ 是步长。在CMDP中，优化问题扩展为：
$\pi_{k+1} = \arg \max_{\pi} J(\pi)$ $\text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m$ $D(\pi, \pi_k) \leq \delta$
这个优化问题在高维控制任务中难以直接实现，因为计算 $J_{C_i}(\pi)$ 需要离线策略评估（off-policy evaluation），这在实践中计算成本高且不稳定。CPO通过使用代理函数（surrogate functions）和信任区域（trust region）方法来近似解决这一问题。

策略性能界（Policy Performance Bounds）

核心思想

这一小节提出一个新的理论结果，用于界定两个策略 $\pi'$ 和 $\pi$ 在奖励或成本上的差异。这个界限是CPO算法的基础，允许设计既能提高奖励又能满足约束的策略更新步骤。

定理1（Theorem 1）

定理1给出了回报差异的界限：

$D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi')$

其中：

$D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$
$L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right]$
$\delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s)$
$\epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right|$
$D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)|$ ，是状态 $s$ 下的总变差距离

意义：这个定理将 $J(\pi') - J(\pi)$ 用一个可计算的代理函数 $L_{\pi,f}(\pi')$ 和一个误差项（与策略之间的总变差距离相关）来界定。界限是“tight”的，当 $\pi' = \pi$ 时，上下界和真实值都为0。

推导过程：

推导依赖于引理2和引理3。我们从引理2开始。

引理2（Lemma 2）

引理2提供初步界限：

$J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right)$

$J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right)$

其中 $D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)|$ 是状态分布的总变差距离， $d^\pi(s)$ 是折扣未来状态分布：

$d^\pi(s) = (1-\gamma) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi)$

推导步骤：

回报差异：

根据公式：

$J(\pi) = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right]$

其中 $\delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s)$ 。对 $\pi'$ 类似：

$J(\pi') = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right]$

相减：

$J(\pi') - J(\pi) = \frac{1}{1-\gamma} \left( \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] \right)$
分解第一项：

定义 $\delta_f^{\pi'}(s) = \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') | s \right]$ ，则：

$\mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \langle d^{\pi'}, \delta_f^{\pi'} \rangle$

分解为：

$\langle d^{\pi'}, \delta_f^{\pi'} \rangle = \langle d^\pi, \delta_f^{\pi'} \rangle + \langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle$
Hölder不等式：
即赫尔德不等式
对第二项应用Hölder不等式：

$\langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle \leq \| d^{\pi'} - d^\pi \|_p \| \delta_f^{\pi'} \|_q, \quad \frac{1}{p} + \frac{1}{q} = 1$

选择 $p = 1$ ， $q=\infty$ ：

$\| d^{\pi'} - d^\pi \|_1 = 2 D_{TV}(d^{\pi'} \| d^\pi), \quad \| \delta_f^{\pi'} \|_\infty = \epsilon_f^{\pi'}$

得到上下界：

$\langle d^{\pi'}, \delta_f^{\pi'} \rangle \leq \langle d^\pi, \delta_f^{\pi'} \rangle + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi)$

$\langle d^{\pi'}, \delta_f^{\pi'} \rangle \geq \langle d^\pi, \delta_f^{\pi'} \rangle - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi)$
重要性采样：

$\langle d^\pi, \delta_f^{\pi'} \rangle = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \frac{\pi'(a|s)}{\pi(a|s)} \delta_f(s,a,s') \right]$

因此：

$\langle d^\pi, \delta_f^{\pi'} \rangle - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] = L_{\pi,f}(\pi')$

代入得到引理2的界限。

引理3（Lemma 3）

为了将状态分布的 $D_{TV}(d^{\pi'} \| d^\pi)$ 转换为策略的变差距离：

$\| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$

推导步骤：

状态分布差异：

$d^{\pi'} - d^\pi = \gamma (1-\gamma) G \Delta d^\pi$

其中 $\gamma P_\pi)^{-1}$ ， $\Delta = P_{\pi'} - P_\pi$ 。取1-范数：

$\| d^{\pi'} - d^\pi \|_1 \leq \gamma \| G \|_1 \| \Delta d^\pi \|_1$
界定 $G \|_1$ ：

$\| G \|_1 \leq \frac{1}{1-\gamma}$
界定 $\| \Delta d^\pi \|_1$ ：

$\Delta(s'|s) = \int P(s'|s,a) (\pi'(a|s) - \pi(a|s)) da$

$\| \Delta d^\pi \|_1 \leq \sum_{s,s'} |\Delta(s'|s)| d^\pi(s) = 2 \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$

因此：

$\| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$

将引理3代入引理2，得到定理1。

推论1（Corollary 1）

选择 $V^\pi$ ，则 $\delta_f(s,a,s') = A^\pi(s,a)$ ， $\epsilon^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A^\pi(s,a)]|$ ，得到：

$J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right]$

意义：这允许使用当前策略的状态分布 $d^\pi$ 和优势函数 $A^\pi$ 近似新策略的回报，误差与策略差异相关。

推论2（Corollary 2）

对于约束成本 $C_i$ ：

$J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right]$

其中 $\epsilon_{C_i}^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A_{C_i}^\pi(s,a)]|$ 。

意义：为约束成本的增加提供上界，确保新策略不违反约束。

推论3（Corollary 3）

使用Pinsker不等式将 $D_{TV}$ 转换为KL散度：

$D_{TV}(\pi' \|\pi | s) \leq \sqrt{\frac{1}{2} D_{KL}(\pi' \|\pi | s)}$ $\mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]}$

意义：使界限与信任区域方法使用的KL散度约束兼容。

5.2 信任区域方法（Trust Region Methods）

信任区域方法更新策略为：

$\pi_{k+1} = \arg \max_{\pi} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right]$ $\text{s.t.} \quad \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta$
其中 $\tilde{D}_{KL}(\pi \|\pi_k) = \mathbb{E}_{s \sim d^{\pi_k}} \left[ D_{KL}(\pi \|\pi_k | s) \right]$ 。

命题1（Proposition 1）

$J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2}$

证明：

$\pi_k$ 是可行点，目标值为0，因此 $\mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi_{k+1}} \left[ A^{\pi_k}(s,a) \right] \geq 0$ 。
由推论1和推论3，结合 $\tilde{D}_{KL} \leq \delta$ ，得到下界。

5.3 约束MDP的信任区域优化

CPO的更新形式为：

$\pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right]$

$\text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i, \quad \forall i$

$\tilde{D}_{KL}(\pi \|\pi_k) \leq \delta$

命题2（Proposition 2）

$J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2}$

证明：由推论2和推论3，结合KL散度约束推导。

第6部分：实际实现

论文的第6部分讨论了如何在实践中高效实现CPO算法，特别是在高维策略（如神经网络）的情况下。

6.1 近似求解CPO更新

直接求解公式（10）在高维参数空间中计算成本过高。CPO通过线性化和二次近似简化问题：

$\theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k)$ $\text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0, \quad i=1,\ldots,m$ $\frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta$

其中：

$g$ ：目标函数梯度， $\mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right]$ 的梯度
$b_i$ ：约束 $i$ 的梯度
$H$ ：KL散度的Hessian矩阵（Fisher信息矩阵）
$c_i = J_{C_i}(\pi_k) - d_i$