约束策略优化CPO来对系统进行优化,可以仔细阅读一下这篇论文。
上节回顾
MDP与CMDP
通过上次的介绍我们已经了解了什么是CMDP了,并且从数学的角度来定义了CMDP问题,回顾一下,就是传统的MDP是找到最优策略,来最大化期望累计奖励(最大化期望回报):
π
∗
=
arg
max
J
(
π
)
,
\pi^* = \arg \max J(\pi),
π∗=argmaxJ(π),
而在CMDP中,我们要找到最优策略,来最大化累计奖励的同时,满足一定的约束条件:
π
∗
=
arg
max
π
∈
Π
C
J
(
π
)
,
\pi^* = \arg \max_{\pi \in \Pi_C} J(\pi),
π∗=argπ∈ΠCmaxJ(π),
J
(
π
)
J(\pi)
J(π) 是策略
π
\pi
π 的期望奖励(目标函数),表示为
J
(
π
)
=
E
τ
∼
π
[
∑
t
=
0
∞
γ
t
R
(
s
t
,
a
t
)
]
,
J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^\infty \gamma^t R(s_t, a_t) \right],
J(π)=Eτ∼π[∑t=0∞γtR(st,at)],
τ
=
(
s
0
,
a
0
,
s
1
,
a
1
,
…
)
\tau = (s_0, a_0, s_1, a_1, \dots)
τ=(s0,a0,s1,a1,…) 是策略
π
\pi
π 产生的轨迹。
R
(
s
t
,
a
t
)
R(s_t, a_t)
R(st,at) 是时刻
t
t
t 的即时奖励。
γ
∈
(
0
,
1
)
\gamma \in (0, 1)
γ∈(0,1) 是折扣因子。
Π
C
\Pi_C
ΠC 是满足约束条件的策略集合,一般可以用辅助成本函数
J
C
i
(
π
)
J_{C_i}(\pi)
JCi(π)来表示。定义为:
Π
C
=
π
∈
Π
∣
∀
i
,
J
C
i
(
π
)
≤
d
i
,
\Pi_C = { \pi \in \Pi \mid \forall i, J_{C_i}(\pi) \leq d_i },
ΠC=π∈Π∣∀i,JCi(π)≤di,
J
C
i
(
π
)
J_{C_i}(\pi)
JCi(π) 是第
i
i
i 个约束的期望成本。
d
i
d_i
di 是第
i
i
i 个约束的上界。
简单来说,CPO 的目标是找到一个策略
π
∗
\pi^*
π∗,使得奖励最大化,同时每个约束
J
C
i
(
π
)
≤
d
i
J_{C_i}(\pi) \leq d_i
JCi(π)≤di 都得到满足。
举例
举个例子:
想象一个机器人要学会在工厂里搬运物品(最大化奖励:搬运的物品数量)。但它必须满足两个约束:
不能撞到工人(安全约束,成本函数
C
1
C_1
C1 可能是在撞到工人时记为1,否则为0)。
电量消耗不能超过一定值(资源约束,成本函数
C
2
C_2
C2 可能是每次移动的电量消耗)。
CMDP的目标是让机器人找到一个策略,既能搬运尽可能多的物品(最大化
J
(
π
)
J(\pi)
J(π)),又要确保撞人次数的期望值和电量消耗的期望值分别不超过
d
1
d_1
d1和
d
2
d_2
d2。这就是对它的安全、合规性作出的要求。
约束策略优化
论文的第5部分提出了约束策略优化(CPO)算法,用于在约束马尔可夫决策过程(CMDP)框架下优化强化学习策略。CMDP在标准马尔可夫决策过程(MDP)基础上增加了约束条件,例如安全性约束。CPO的目标是在最大化期望奖励的同时,保证训练过程中的每一步策略都满足约束。接下来我们就具体理解一下第五和第六部分的重要思想.
第5部分:背景与问题设定
在强化学习中,策略搜索算法通过迭代更新参数化的策略(例如神经网络)来优化期望奖励 J ( π ) J(\pi) J(π),定义为:
J ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t R ( s t , a t , s t + 1 ) ] J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) \right] J(π)=Eτ∼π[t=0∑∞γtR(st,at,st+1)]
其中, γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ∈[0,1)是折扣因子, R ( s t , a t , s t + 1 ) R(s_t, a_t, s_{t+1}) R(st,at,st+1)是奖励函数, τ \tau τ表示轨迹 ( s 0 , a 0 , s 1 , … ) (s_0, a_0, s_1, \ldots) (s0,a0,s1,…)。
在CMDP中,除了最大化 J ( π ) J(\pi) J(π),还需要满足一组约束 J C i ( π ) ≤ d i J_{C_i}(\pi) \leq d_i JCi(π)≤di,其中 C i C_i Ci是辅助成本函数(例如表示不安全行为的成本), d i d_i di是约束阈值。 J C i ( π ) J_{C_i}(\pi) JCi(π)定义为:
J C i ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t C i ( s t , a t , s t + 1 ) ] J_{C_i}(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t C_i(s_t, a_t, s_{t+1}) \right] JCi(π)=Eτ∼π[t=0∑∞γtCi(st,at,st+1)]
标准局部策略搜索(local policy search)通过限制新策略 π \pi π与当前策略 π k \pi_k πk之间的距离来更新策略:
π k + 1 = arg max π J ( π ) s.t. D ( π , π k ) ≤ δ \pi_{k+1} = \arg \max_{\pi} J(\pi) \quad \text{s.t.} \quad D(\pi, \pi_k) \leq \delta πk+1=argπmaxJ(π)s.t.D(π,πk)≤δ
其中
D
(
π
,
π
k
)
D(\pi, \pi_k)
D(π,πk)是距离度量(如KL散度),
δ
\delta
δ是步长。在CMDP中,优化问题扩展为:
π
k
+
1
=
arg
max
π
J
(
π
)
\pi_{k+1} = \arg \max_{\pi} J(\pi)
πk+1=argπmaxJ(π)
s.t.
J
C
i
(
π
)
≤
d
i
,
i
=
1
,
…
,
m
\text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m
s.t.JCi(π)≤di,i=1,…,m
D
(
π
,
π
k
)
≤
δ
D(\pi, \pi_k) \leq \delta
D(π,πk)≤δ
这个优化问题在高维控制任务中难以直接实现,因为计算
J
C
i
(
π
)
J_{C_i}(\pi)
JCi(π)需要离线策略评估(off-policy evaluation),这在实践中计算成本高且不稳定。CPO通过使用代理函数(surrogate functions)和信任区域(trust region)方法来近似解决这一问题。
策略性能界(Policy Performance Bounds)
核心思想
这一小节提出一个新的理论结果,用于界定两个策略 π ′ \pi' π′和 π \pi π在奖励或成本上的差异。这个界限是CPO算法的基础,允许设计既能提高奖励又能满足约束的策略更新步骤。
定理1(Theorem 1)
定理1给出了回报差异的界限:
D π , f + ( π ′ ) ≥ J ( π ′ ) − J ( π ) ≥ D π , f − ( π ′ ) D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi') Dπ,f+(π′)≥J(π′)−J(π)≥Dπ,f−(π′)
其中:
- D π , f ± ( π ′ ) = L π , f ( π ′ ) 1 − γ ± 2 γ ϵ f π ′ ( 1 − γ ) 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] Dπ,f±(π′)=1−γLπ,f(π′)±(1−γ)22γϵfπ′Es∼dπ[DTV(π′∥π∣s)]
- L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π′)=Es∼dπ,a∼π′,s′∼P[(π(a∣s)π′(a∣s)−1)δf(s,a,s′)]
- δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s′)=R(s,a,s′)+γf(s′)−f(s)
- ϵ f π ′ = max s ∣ E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ∣ \epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right| ϵfπ′=maxs∣Ea∼π′,s′∼P[δf(s,a,s′)]∣
- D T V ( π ′ ∥ π ∣ s ) = 1 2 ∑ a ∣ π ′ ( a ∣ s ) − π ( a ∣ s ) ∣ D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)| DTV(π′∥π∣s)=21∑a∣π′(a∣s)−π(a∣s)∣,是状态 s s s下的总变差距离
意义:这个定理将 J ( π ′ ) − J ( π ) J(\pi') - J(\pi) J(π′)−J(π)用一个可计算的代理函数 L π , f ( π ′ ) L_{\pi,f}(\pi') Lπ,f(π′)和一个误差项(与策略之间的总变差距离相关)来界定。界限是“tight”的,当 π ′ = π \pi' = \pi π′=π时,上下界和真实值都为0。
推导过程:
推导依赖于引理2和引理3。我们从引理2开始。
引理2(Lemma 2)
引理2提供初步界限:
J ( π ′ ) − J ( π ) ≥ 1 1 − γ ( L π , f ( π ′ ) − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π′)−J(π)≥1−γ1(Lπ,f(π′)−2ϵfπ′DTV(dπ′∥dπ))
J ( π ′ ) − J ( π ) ≤ 1 1 − γ ( L π , f ( π ′ ) + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π′)−J(π)≤1−γ1(Lπ,f(π′)+2ϵfπ′DTV(dπ′∥dπ))
其中 D T V ( d π ′ ∥ d π ) = 1 2 ∑ s ∣ d π ′ ( s ) − d π ( s ) ∣ D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)| DTV(dπ′∥dπ)=21∑s∣dπ′(s)−dπ(s)∣是状态分布的总变差距离, d π ( s ) d^\pi(s) dπ(s)是折扣未来状态分布:
d π ( s ) = ( 1 − γ ) ∑ t = 0 ∞ γ t P ( s t = s ∣ π ) d^\pi(s) = (1-\gamma) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi) dπ(s)=(1−γ)t=0∑∞γtP(st=s∣π)
推导步骤:
-
回报差异:
根据公式:
J ( π ) = E s ∼ μ [ f ( s ) ] + 1 1 − γ E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] J(\pi) = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] J(π)=Es∼μ[f(s)]+1−γ1Es∼dπ,a∼π,s′∼P[δf(s,a,s′)]
其中 δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s′)=R(s,a,s′)+γf(s′)−f(s)。对 π ′ \pi' π′类似:
J ( π ′ ) = E s ∼ μ [ f ( s ) ] + 1 1 − γ E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] J(\pi') = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] J(π′)=Es∼μ[f(s)]+1−γ1Es∼dπ′,a∼π′,s′∼P[δf(s,a,s′)]
相减:
J ( π ′ ) − J ( π ) = 1 1 − γ ( E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] − E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ) J(\pi') - J(\pi) = \frac{1}{1-\gamma} \left( \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] \right) J(π′)−J(π)=1−γ1(Es∼dπ′,a∼π′,s′∼P[δf(s,a,s′)]−Es∼dπ,a∼π,s′∼P[δf(s,a,s′)])
-
分解第一项:
定义 δ f π ′ ( s ) = E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ∣ s ] \delta_f^{\pi'}(s) = \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') | s \right] δfπ′(s)=Ea∼π′,s′∼P[δf(s,a,s′)∣s],则:
E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = ⟨ d π ′ , δ f π ′ ⟩ \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \langle d^{\pi'}, \delta_f^{\pi'} \rangle Es∼dπ′,a∼π′,s′∼P[δf(s,a,s′)]=⟨dπ′,δfπ′⟩
分解为:
⟨ d π ′ , δ f π ′ ⟩ = ⟨ d π , δ f π ′ ⟩ + ⟨ d π ′ − d π , δ f π ′ ⟩ \langle d^{\pi'}, \delta_f^{\pi'} \rangle = \langle d^\pi, \delta_f^{\pi'} \rangle + \langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle ⟨dπ′,δfπ′⟩=⟨dπ,δfπ′⟩+⟨dπ′−dπ,δfπ′⟩
-
Hölder不等式:
即赫尔德不等式
对第二项应用Hölder不等式:⟨ d π ′ − d π , δ f π ′ ⟩ ≤ ∥ d π ′ − d π ∥ p ∥ δ f π ′ ∥ q , 1 p + 1 q = 1 \langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle \leq \| d^{\pi'} - d^\pi \|_p \| \delta_f^{\pi'} \|_q, \quad \frac{1}{p} + \frac{1}{q} = 1 ⟨dπ′−dπ,δfπ′⟩≤∥dπ′−dπ∥p∥δfπ′∥q,p1+q1=1
选择 p = 1 p=1 p=1, q = ∞ q=\infty q=∞:
∥ d π ′ − d π ∥ 1 = 2 D T V ( d π ′ ∥ d π ) , ∥ δ f π ′ ∥ ∞ = ϵ f π ′ \| d^{\pi'} - d^\pi \|_1 = 2 D_{TV}(d^{\pi'} \| d^\pi), \quad \| \delta_f^{\pi'} \|_\infty = \epsilon_f^{\pi'} ∥dπ′−dπ∥1=2DTV(dπ′∥dπ),∥δfπ′∥∞=ϵfπ′
得到上下界:
⟨ d π ′ , δ f π ′ ⟩ ≤ ⟨ d π , δ f π ′ ⟩ + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) \langle d^{\pi'}, \delta_f^{\pi'} \rangle \leq \langle d^\pi, \delta_f^{\pi'} \rangle + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) ⟨dπ′,δfπ′⟩≤⟨dπ,δfπ′⟩+2ϵfπ′DTV(dπ′∥dπ)
⟨ d π ′ , δ f π ′ ⟩ ≥ ⟨ d π , δ f π ′ ⟩ − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) \langle d^{\pi'}, \delta_f^{\pi'} \rangle \geq \langle d^\pi, \delta_f^{\pi'} \rangle - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) ⟨dπ′,δfπ′⟩≥⟨dπ,δfπ′⟩−2ϵfπ′DTV(dπ′∥dπ)
-
重要性采样:
⟨ d π , δ f π ′ ⟩ = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = E s ∼ d π , a ∼ π , s ′ ∼ P [ π ′ ( a ∣ s ) π ( a ∣ s ) δ f ( s , a , s ′ ) ] \langle d^\pi, \delta_f^{\pi'} \rangle = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \frac{\pi'(a|s)}{\pi(a|s)} \delta_f(s,a,s') \right] ⟨dπ,δfπ′⟩=Es∼dπ,a∼π′,s′∼P[δf(s,a,s′)]=Es∼dπ,a∼π,s′∼P[π(a∣s)π′(a∣s)δf(s,a,s′)]
因此:
⟨ d π , δ f π ′ ⟩ − E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = L π , f ( π ′ ) \langle d^\pi, \delta_f^{\pi'} \rangle - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] = L_{\pi,f}(\pi') ⟨dπ,δfπ′⟩−Es∼dπ,a∼π,s′∼P[δf(s,a,s′)]=Lπ,f(π′)
代入得到引理2的界限。
引理3(Lemma 3)
为了将状态分布的 D T V ( d π ′ ∥ d π ) D_{TV}(d^{\pi'} \| d^\pi) DTV(dπ′∥dπ)转换为策略的变差距离:
∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] ∥dπ′−dπ∥1≤1−γ2γEs∼dπ[DTV(π′∥π∣s)]
推导步骤:
-
状态分布差异:
d π ′ − d π = γ ( 1 − γ ) G Δ d π d^{\pi'} - d^\pi = \gamma (1-\gamma) G \Delta d^\pi dπ′−dπ=γ(1−γ)GΔdπ
其中 G = ( I − γ P π ) − 1 G = (I - \gamma P_\pi)^{-1} G=(I−γPπ)−1, Δ = P π ′ − P π \Delta = P_{\pi'} - P_\pi Δ=Pπ′−Pπ。取1-范数:
∥ d π ′ − d π ∥ 1 ≤ γ ∥ G ∥ 1 ∥ Δ d π ∥ 1 \| d^{\pi'} - d^\pi \|_1 \leq \gamma \| G \|_1 \| \Delta d^\pi \|_1 ∥dπ′−dπ∥1≤γ∥G∥1∥Δdπ∥1
-
界定 ∥ G ∥ 1 \| G \|_1 ∥G∥1:
∥ G ∥ 1 ≤ 1 1 − γ \| G \|_1 \leq \frac{1}{1-\gamma} ∥G∥1≤1−γ1
-
界定 ∥ Δ d π ∥ 1 \| \Delta d^\pi \|_1 ∥Δdπ∥1:
Δ ( s ′ ∣ s ) = ∫ P ( s ′ ∣ s , a ) ( π ′ ( a ∣ s ) − π ( a ∣ s ) ) d a \Delta(s'|s) = \int P(s'|s,a) (\pi'(a|s) - \pi(a|s)) da Δ(s′∣s)=∫P(s′∣s,a)(π′(a∣s)−π(a∣s))da
∥ Δ d π ∥ 1 ≤ ∑ s , s ′ ∣ Δ ( s ′ ∣ s ) ∣ d π ( s ) = 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| \Delta d^\pi \|_1 \leq \sum_{s,s'} |\Delta(s'|s)| d^\pi(s) = 2 \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] ∥Δdπ∥1≤s,s′∑∣Δ(s′∣s)∣dπ(s)=2Es∼dπ[DTV(π′∥π∣s)]
因此:
∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] ∥dπ′−dπ∥1≤1−γ2γEs∼dπ[DTV(π′∥π∣s)]
将引理3代入引理2,得到定理1。
推论1(Corollary 1)
选择 f = V π f = V^\pi f=Vπ,则 δ f ( s , a , s ′ ) = A π ( s , a ) \delta_f(s,a,s') = A^\pi(s,a) δf(s,a,s′)=Aπ(s,a), ϵ π ′ = max s ∣ E a ∼ π ′ [ A π ( s , a ) ] ∣ \epsilon^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A^\pi(s,a)]| ϵπ′=maxs∣Ea∼π′[Aπ(s,a)]∣,得到:
J ( π ′ ) − J ( π ) ≥ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A π ( s , a ) − 2 γ ϵ π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] J(π′)−J(π)≥1−γ1Es∼dπ,a∼π′[Aπ(s,a)−1−γ2γϵπ′DTV(π′∥π∣s)]
意义:这允许使用当前策略的状态分布 d π d^\pi dπ和优势函数 A π A^\pi Aπ近似新策略的回报,误差与策略差异相关。
推论2(Corollary 2)
对于约束成本 C i C_i Ci:
J C i ( π ′ ) − J C i ( π ) ≤ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A C i π ( s , a ) + 2 γ ϵ C i π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] JCi(π′)−JCi(π)≤1−γ1Es∼dπ,a∼π′[ACiπ(s,a)+1−γ2γϵCiπ′DTV(π′∥π∣s)]
其中 ϵ C i π ′ = max s ∣ E a ∼ π ′ [ A C i π ( s , a ) ] ∣ \epsilon_{C_i}^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A_{C_i}^\pi(s,a)]| ϵCiπ′=maxs∣Ea∼π′[ACiπ(s,a)]∣。
意义:为约束成本的增加提供上界,确保新策略不违反约束。
推论3(Corollary 3)
使用Pinsker不等式将 D T V D_{TV} DTV转换为KL散度:
D T V ( π ′ ∥ π ∣ s ) ≤ 1 2 D K L ( π ′ ∥ π ∣ s ) D_{TV}(\pi' \|\pi | s) \leq \sqrt{\frac{1}{2} D_{KL}(\pi' \|\pi | s)} DTV(π′∥π∣s)≤21DKL(π′∥π∣s) E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] ≤ 1 2 E s ∼ d π [ D K L ( π ′ ∥ π ∣ s ) ] \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]} Es∼dπ[DTV(π′∥π∣s)]≤21Es∼dπ[DKL(π′∥π∣s)]
意义:使界限与信任区域方法使用的KL散度约束兼容。
5.2 信任区域方法(Trust Region Methods)
信任区域方法更新策略为:
π
k
+
1
=
arg
max
π
E
s
∼
d
π
k
,
a
∼
π
[
A
π
k
(
s
,
a
)
]
\pi_{k+1} = \arg \max_{\pi} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right]
πk+1=argπmaxEs∼dπk,a∼π[Aπk(s,a)]
s.t.
D
~
K
L
(
π
∥
π
k
)
≤
δ
\text{s.t.} \quad \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta
s.t.D~KL(π∥πk)≤δ
其中
D
~
K
L
(
π
∥
π
k
)
=
E
s
∼
d
π
k
[
D
K
L
(
π
∥
π
k
∣
s
)
]
\tilde{D}_{KL}(\pi \|\pi_k) = \mathbb{E}_{s \sim d^{\pi_k}} \left[ D_{KL}(\pi \|\pi_k | s) \right]
D~KL(π∥πk)=Es∼dπk[DKL(π∥πk∣s)]。
命题1(Proposition 1)
J ( π k + 1 ) − J ( π k ) ≥ − 2 δ γ ϵ π k + 1 ( 1 − γ ) 2 J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2} J(πk+1)−J(πk)≥(1−γ)2−2δγϵπk+1
证明:
- π k \pi_k πk是可行点,目标值为0,因此 E s ∼ d π k , a ∼ π k + 1 [ A π k ( s , a ) ] ≥ 0 \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi_{k+1}} \left[ A^{\pi_k}(s,a) \right] \geq 0 Es∼dπk,a∼πk+1[Aπk(s,a)]≥0。
- 由推论1和推论3,结合 D ~ K L ≤ δ \tilde{D}_{KL} \leq \delta D~KL≤δ,得到下界。
5.3 约束MDP的信任区域优化
CPO的更新形式为:
π k + 1 = arg max π ∈ Π θ E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] πk+1=argπ∈ΠθmaxEs∼dπk,a∼π[Aπk(s,a)]
s.t. J C i ( π k ) + 1 1 − γ E s ∼ d π k , a ∼ π [ A C i π k ( s , a ) ] ≤ d i , ∀ i \text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i, \quad \forall i s.t.JCi(πk)+1−γ1Es∼dπk,a∼π[ACiπk(s,a)]≤di,∀i
D ~ K L ( π ∥ π k ) ≤ δ \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta D~KL(π∥πk)≤δ
命题2(Proposition 2)
J C i ( π k + 1 ) ≤ d i + 2 δ γ ϵ C i π k + 1 ( 1 − γ ) 2 J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2} JCi(πk+1)≤di+(1−γ)22δγϵCiπk+1
证明:由推论2和推论3,结合KL散度约束推导。
第6部分:实际实现
论文的第6部分讨论了如何在实践中高效实现CPO算法,特别是在高维策略(如神经网络)的情况下。
6.1 近似求解CPO更新
直接求解公式(10)在高维参数空间中计算成本过高。CPO通过线性化和二次近似简化问题:
θ k + 1 = arg max θ g T ( θ − θ k ) \theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k) θk+1=argθmaxgT(θ−θk) s.t. c i + b i T ( θ − θ k ) ≤ 0 , i = 1 , … , m \text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0, \quad i=1,\ldots,m s.t.ci+biT(θ−θk)≤0,i=1,…,m 1 2 ( θ − θ k ) T H ( θ − θ k ) ≤ δ \frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta 21(θ−θk)TH(θ−θk)≤δ
其中:
- g g g:目标函数梯度, E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] Es∼dπk,a∼π[Aπk(s,a)]的梯度
- b i b_i bi:约束 i i i的梯度
- H H H:KL散度的Hessian矩阵(Fisher信息矩阵)
- c i = J C i ( π k ) − d i c_i = J_{C_i}(\pi_k) - d_i ci=JCi(πk)−di
通过对偶问题求解:
max λ ≥ 0 , ν ≥ 0 − 1 2 λ ( g T H − 1 g − 2 r T ν + ν T S ν ) + ν T c − λ δ 2 \max_{\lambda \geq 0, \nu \geq 0} \frac{-1}{2 \lambda} \left( g^T H^{-1} g - 2 r^T \nu + \nu^T S \nu \right) + \nu^T c - \frac{\lambda \delta}{2} λ≥0,ν≥0max2λ−1(gTH−1g−2rTν+νTSν)+νTc−2λδ
其中 r = g T H − 1 B r = g^T H^{-1} B r=gTH−1B, S = B T H − 1 B S = B^T H^{-1} B S=BTH−1B, B = [ b 1 , … , b m ] B = [b_1, \ldots, b_m] B=[b1,…,bm]。对偶解为:
θ ∗ = θ k + 1 λ ∗ H − 1 ( g − B ν ∗ ) \theta^* = \theta_k + \frac{1}{\lambda^*} H^{-1} (g - B \nu^*) θ∗=θk+λ∗1H−1(g−Bν∗)
对于单约束情况,论文提供了解析解(定理2),避免内循环优化。
6.2 可行性(Feasibility)
由于近似误差,CPO可能生成不可行策略。对于单约束情况,恢复策略为:
θ ∗ = θ k − 2 δ b T H − 1 b H − 1 b \theta^* = \theta_k - \sqrt{\frac{2 \delta}{b^T H^{-1} b}} H^{-1} b θ∗=θk−bTH−1b2δH−1b
通过回溯线搜索确保约束满足。
6.3 成本整形(Cost Shaping)
为增强约束满足的鲁棒性,CPO引入成本整形:
C i + ( s , a , s ′ ) = C i ( s , a , s ′ ) + Δ i ( s , a , s ′ ) C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s') Ci+(s,a,s′)=Ci(s,a,s′)+Δi(s,a,s′)
其中 Δ i \Delta_i Δi是与安全性相关的附加项,例如预测进入不安全状态的概率。这种方法平滑了稀疏约束,减少违反风险。