详解受约束的强化学习(二、理解学习)

在这里插入图片描述
约束策略优化CPO来对系统进行优化,可以仔细阅读一下这篇论文。

上节回顾

MDP与CMDP

通过上次的介绍我们已经了解了什么是CMDP了,并且从数学的角度来定义了CMDP问题,回顾一下,就是传统的MDP是找到最优策略,来最大化期望累计奖励(最大化期望回报):
π ∗ = arg ⁡ max ⁡ J ( π ) , \pi^* = \arg \max J(\pi), π=argmaxJ(π),
而在CMDP中,我们要找到最优策略,来最大化累计奖励的同时,满足一定的约束条件:
π ∗ = arg ⁡ max ⁡ π ∈ Π C J ( π ) , \pi^* = \arg \max_{\pi \in \Pi_C} J(\pi), π=argπΠCmaxJ(π),
J ( π ) J(\pi) J(π) 是策略 π \pi π 的期望奖励(目标函数),表示为
J ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t R ( s t , a t ) ] , J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^\infty \gamma^t R(s_t, a_t) \right], J(π)=Eτπ[t=0γtR(st,at)],
τ = ( s 0 , a 0 , s 1 , a 1 , …   ) \tau = (s_0, a_0, s_1, a_1, \dots) τ=(s0,a0,s1,a1,) 是策略 π \pi π 产生的轨迹。
R ( s t , a t ) R(s_t, a_t) R(st,at) 是时刻 t t t 的即时奖励。
γ ∈ ( 0 , 1 ) \gamma \in (0, 1) γ(0,1) 是折扣因子。
Π C \Pi_C ΠC 是满足约束条件的策略集合,一般可以用辅助成本函数 J C i ( π ) J_{C_i}(\pi) JCi(π)来表示。定义为:
Π C = π ∈ Π ∣ ∀ i , J C i ( π ) ≤ d i , \Pi_C = { \pi \in \Pi \mid \forall i, J_{C_i}(\pi) \leq d_i }, ΠC=πΠi,JCi(π)di,
J C i ( π ) J_{C_i}(\pi) JCi(π) 是第 i i i 个约束的期望成本。
d i d_i di 是第 i i i 个约束的上界。
简单来说,CPO 的目标是找到一个策略 π ∗ \pi^* π,使得奖励最大化,同时每个约束 J C i ( π ) ≤ d i J_{C_i}(\pi) \leq d_i JCi(π)di 都得到满足。

举例

举个例子:
想象一个机器人要学会在工厂里搬运物品(最大化奖励:搬运的物品数量)。但它必须满足两个约束:

不能撞到工人(安全约束,成本函数 C 1 C_1 C1 可能是在撞到工人时记为1,否则为0)。
电量消耗不能超过一定值(资源约束,成本函数 C 2 C_2 C2 可能是每次移动的电量消耗)。
CMDP的目标是让机器人找到一个策略,既能搬运尽可能多的物品(最大化 J ( π ) J(\pi) J(π)),又要确保撞人次数的期望值和电量消耗的期望值分别不超过 d 1 d_1 d1 d 2 d_2 d2。这就是对它的安全、合规性作出的要求。

约束策略优化

论文的第5部分提出了约束策略优化(CPO)算法,用于在约束马尔可夫决策过程(CMDP)框架下优化强化学习策略。CMDP在标准马尔可夫决策过程(MDP)基础上增加了约束条件,例如安全性约束。CPO的目标是在最大化期望奖励的同时,保证训练过程中的每一步策略都满足约束。接下来我们就具体理解一下第五和第六部分的重要思想.

第5部分:背景与问题设定

在强化学习中,策略搜索算法通过迭代更新参数化的策略(例如神经网络)来优化期望奖励 J ( π ) J(\pi) J(π),定义为:

J ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t R ( s t , a t , s t + 1 ) ] J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) \right] J(π)=Eτπ[t=0γtR(st,at,st+1)]

其中, γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1)是折扣因子, R ( s t , a t , s t + 1 ) R(s_t, a_t, s_{t+1}) R(st,at,st+1)是奖励函数, τ \tau τ表示轨迹 ( s 0 , a 0 , s 1 , … ) (s_0, a_0, s_1, \ldots) (s0,a0,s1,)

在CMDP中,除了最大化 J ( π ) J(\pi) J(π),还需要满足一组约束 J C i ( π ) ≤ d i J_{C_i}(\pi) \leq d_i JCi(π)di,其中 C i C_i Ci是辅助成本函数(例如表示不安全行为的成本), d i d_i di是约束阈值。 J C i ( π ) J_{C_i}(\pi) JCi(π)定义为:

J C i ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t C i ( s t , a t , s t + 1 ) ] J_{C_i}(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t C_i(s_t, a_t, s_{t+1}) \right] JCi(π)=Eτπ[t=0γtCi(st,at,st+1)]

标准局部策略搜索(local policy search)通过限制新策略 π \pi π与当前策略 π k \pi_k πk之间的距离来更新策略:

π k + 1 = arg ⁡ max ⁡ π J ( π ) s.t. D ( π , π k ) ≤ δ \pi_{k+1} = \arg \max_{\pi} J(\pi) \quad \text{s.t.} \quad D(\pi, \pi_k) \leq \delta πk+1=argπmaxJ(π)s.t.D(π,πk)δ

其中 D ( π , π k ) D(\pi, \pi_k) D(π,πk)是距离度量(如KL散度), δ \delta δ是步长。在CMDP中,优化问题扩展为:
π k + 1 = arg ⁡ max ⁡ π J ( π ) \pi_{k+1} = \arg \max_{\pi} J(\pi) πk+1=argπmaxJ(π) s.t. J C i ( π ) ≤ d i , i = 1 , … , m \text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m s.t.JCi(π)di,i=1,,m D ( π , π k ) ≤ δ D(\pi, \pi_k) \leq \delta D(π,πk)δ
这个优化问题在高维控制任务中难以直接实现,因为计算 J C i ( π ) J_{C_i}(\pi) JCi(π)需要离线策略评估(off-policy evaluation),这在实践中计算成本高且不稳定。CPO通过使用代理函数(surrogate functions)和信任区域(trust region)方法来近似解决这一问题。

策略性能界(Policy Performance Bounds)

核心思想

这一小节提出一个新的理论结果,用于界定两个策略 π ′ \pi' π π \pi π在奖励或成本上的差异。这个界限是CPO算法的基础,允许设计既能提高奖励又能满足约束的策略更新步骤。

定理1(Theorem 1)

定理1给出了回报差异的界限:

D π , f + ( π ′ ) ≥ J ( π ′ ) − J ( π ) ≥ D π , f − ( π ′ ) D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi') Dπ,f+(π)J(π)J(π)Dπ,f(π)

其中:

  • D π , f ± ( π ′ ) = L π , f ( π ′ ) 1 − γ ± 2 γ ϵ f π ′ ( 1 − γ ) 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] Dπ,f±(π)=1γLπ,f(π)±(1γ)22γϵfπEsdπ[DTV(ππs)]
  • L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π)=Esdπ,aπ,sP[(π(as)π(as)1)δf(s,a,s)]
  • δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s)=R(s,a,s)+γf(s)f(s)
  • ϵ f π ′ = max ⁡ s ∣ E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ∣ \epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right| ϵfπ=maxsEaπ,sP[δf(s,a,s)]
  • D T V ( π ′ ∥ π ∣ s ) = 1 2 ∑ a ∣ π ′ ( a ∣ s ) − π ( a ∣ s ) ∣ D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)| DTV(ππs)=21aπ(as)π(as),是状态 s s s下的总变差距离

意义:这个定理将 J ( π ′ ) − J ( π ) J(\pi') - J(\pi) J(π)J(π)用一个可计算的代理函数 L π , f ( π ′ ) L_{\pi,f}(\pi') Lπ,f(π)和一个误差项(与策略之间的总变差距离相关)来界定。界限是“tight”的,当 π ′ = π \pi' = \pi π=π时,上下界和真实值都为0。

推导过程

推导依赖于引理2和引理3。我们从引理2开始。

引理2(Lemma 2)

引理2提供初步界限:

J ( π ′ ) − J ( π ) ≥ 1 1 − γ ( L π , f ( π ′ ) − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π)J(π)1γ1(Lπ,f(π)2ϵfπDTV(dπdπ))

J ( π ′ ) − J ( π ) ≤ 1 1 − γ ( L π , f ( π ′ ) + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π)J(π)1γ1(Lπ,f(π)+2ϵfπDTV(dπdπ))

其中 D T V ( d π ′ ∥ d π ) = 1 2 ∑ s ∣ d π ′ ( s ) − d π ( s ) ∣ D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)| DTV(dπdπ)=21sdπ(s)dπ(s)是状态分布的总变差距离, d π ( s ) d^\pi(s) dπ(s)是折扣未来状态分布:

d π ( s ) = ( 1 − γ ) ∑ t = 0 ∞ γ t P ( s t = s ∣ π ) d^\pi(s) = (1-\gamma) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi) dπ(s)=(1γ)t=0γtP(st=sπ)

推导步骤

  1. 回报差异

    根据公式:

    J ( π ) = E s ∼ μ [ f ( s ) ] + 1 1 − γ E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] J(\pi) = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] J(π)=Esμ[f(s)]+1γ1Esdπ,aπ,sP[δf(s,a,s)]

    其中 δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s)=R(s,a,s)+γf(s)f(s)。对 π ′ \pi' π类似:

    J ( π ′ ) = E s ∼ μ [ f ( s ) ] + 1 1 − γ E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] J(\pi') = \mathbb{E}_{s \sim \mu} [f(s)] + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] J(π)=Esμ[f(s)]+1γ1Esdπ,aπ,sP[δf(s,a,s)]

    相减:

    J ( π ′ ) − J ( π ) = 1 1 − γ ( E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] − E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ) J(\pi') - J(\pi) = \frac{1}{1-\gamma} \left( \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] \right) J(π)J(π)=1γ1(Esdπ,aπ,sP[δf(s,a,s)]Esdπ,aπ,sP[δf(s,a,s)])

  2. 分解第一项

    定义 δ f π ′ ( s ) = E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ∣ s ] \delta_f^{\pi'}(s) = \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') | s \right] δfπ(s)=Eaπ,sP[δf(s,a,s)s],则:

    E s ∼ d π ′ , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = ⟨ d π ′ , δ f π ′ ⟩ \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \langle d^{\pi'}, \delta_f^{\pi'} \rangle Esdπ,aπ,sP[δf(s,a,s)]=dπ,δfπ

    分解为:

    ⟨ d π ′ , δ f π ′ ⟩ = ⟨ d π , δ f π ′ ⟩ + ⟨ d π ′ − d π , δ f π ′ ⟩ \langle d^{\pi'}, \delta_f^{\pi'} \rangle = \langle d^\pi, \delta_f^{\pi'} \rangle + \langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle dπ,δfπ=dπ,δfπ+dπdπ,δfπ

  3. Hölder不等式
    即赫尔德不等式
    对第二项应用Hölder不等式:

    ⟨ d π ′ − d π , δ f π ′ ⟩ ≤ ∥ d π ′ − d π ∥ p ∥ δ f π ′ ∥ q , 1 p + 1 q = 1 \langle d^{\pi'} - d^\pi, \delta_f^{\pi'} \rangle \leq \| d^{\pi'} - d^\pi \|_p \| \delta_f^{\pi'} \|_q, \quad \frac{1}{p} + \frac{1}{q} = 1 dπdπ,δfπdπdπpδfπq,p1+q1=1

    选择 p = 1 p=1 p=1 q = ∞ q=\infty q=

    ∥ d π ′ − d π ∥ 1 = 2 D T V ( d π ′ ∥ d π ) , ∥ δ f π ′ ∥ ∞ = ϵ f π ′ \| d^{\pi'} - d^\pi \|_1 = 2 D_{TV}(d^{\pi'} \| d^\pi), \quad \| \delta_f^{\pi'} \|_\infty = \epsilon_f^{\pi'} dπdπ1=2DTV(dπdπ),δfπ=ϵfπ

    得到上下界:

    ⟨ d π ′ , δ f π ′ ⟩ ≤ ⟨ d π , δ f π ′ ⟩ + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) \langle d^{\pi'}, \delta_f^{\pi'} \rangle \leq \langle d^\pi, \delta_f^{\pi'} \rangle + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) dπ,δfπdπ,δfπ+2ϵfπDTV(dπdπ)

    ⟨ d π ′ , δ f π ′ ⟩ ≥ ⟨ d π , δ f π ′ ⟩ − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) \langle d^{\pi'}, \delta_f^{\pi'} \rangle \geq \langle d^\pi, \delta_f^{\pi'} \rangle - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) dπ,δfπdπ,δfπ2ϵfπDTV(dπdπ)

  4. 重要性采样

    ⟨ d π , δ f π ′ ⟩ = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = E s ∼ d π , a ∼ π , s ′ ∼ P [ π ′ ( a ∣ s ) π ( a ∣ s ) δ f ( s , a , s ′ ) ] \langle d^\pi, \delta_f^{\pi'} \rangle = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] = \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \frac{\pi'(a|s)}{\pi(a|s)} \delta_f(s,a,s') \right] dπ,δfπ=Esdπ,aπ,sP[δf(s,a,s)]=Esdπ,aπ,sP[π(as)π(as)δf(s,a,s)]

    因此:

    ⟨ d π , δ f π ′ ⟩ − E s ∼ d π , a ∼ π , s ′ ∼ P [ δ f ( s , a , s ′ ) ] = L π , f ( π ′ ) \langle d^\pi, \delta_f^{\pi'} \rangle - \mathbb{E}_{s \sim d^\pi, a \sim \pi, s' \sim P} \left[ \delta_f(s,a,s') \right] = L_{\pi,f}(\pi') dπ,δfπEsdπ,aπ,sP[δf(s,a,s)]=Lπ,f(π)

    代入得到引理2的界限。

引理3(Lemma 3)

为了将状态分布的 D T V ( d π ′ ∥ d π ) D_{TV}(d^{\pi'} \| d^\pi) DTV(dπdπ)转换为策略的变差距离:

∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] dπdπ11γ2γEsdπ[DTV(ππs)]

推导步骤

  1. 状态分布差异

    d π ′ − d π = γ ( 1 − γ ) G Δ d π d^{\pi'} - d^\pi = \gamma (1-\gamma) G \Delta d^\pi dπdπ=γ(1γ)GΔdπ

    其中 G = ( I − γ P π ) − 1 G = (I - \gamma P_\pi)^{-1} G=(IγPπ)1 Δ = P π ′ − P π \Delta = P_{\pi'} - P_\pi Δ=PπPπ。取1-范数:

    ∥ d π ′ − d π ∥ 1 ≤ γ ∥ G ∥ 1 ∥ Δ d π ∥ 1 \| d^{\pi'} - d^\pi \|_1 \leq \gamma \| G \|_1 \| \Delta d^\pi \|_1 dπdπ1γG1∥Δdπ1

  2. 界定 ∥ G ∥ 1 \| G \|_1 G1

    ∥ G ∥ 1 ≤ 1 1 − γ \| G \|_1 \leq \frac{1}{1-\gamma} G11γ1

  3. 界定 ∥ Δ d π ∥ 1 \| \Delta d^\pi \|_1 ∥Δdπ1

    Δ ( s ′ ∣ s ) = ∫ P ( s ′ ∣ s , a ) ( π ′ ( a ∣ s ) − π ( a ∣ s ) ) d a \Delta(s'|s) = \int P(s'|s,a) (\pi'(a|s) - \pi(a|s)) da Δ(ss)=P(ss,a)(π(as)π(as))da

    ∥ Δ d π ∥ 1 ≤ ∑ s , s ′ ∣ Δ ( s ′ ∣ s ) ∣ d π ( s ) = 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| \Delta d^\pi \|_1 \leq \sum_{s,s'} |\Delta(s'|s)| d^\pi(s) = 2 \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] ∥Δdπ1s,s∣Δ(ss)dπ(s)=2Esdπ[DTV(ππs)]

    因此:

    ∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] dπdπ11γ2γEsdπ[DTV(ππs)]

将引理3代入引理2,得到定理1。

推论1(Corollary 1)

选择 f = V π f = V^\pi f=Vπ,则 δ f ( s , a , s ′ ) = A π ( s , a ) \delta_f(s,a,s') = A^\pi(s,a) δf(s,a,s)=Aπ(s,a) ϵ π ′ = max ⁡ s ∣ E a ∼ π ′ [ A π ( s , a ) ] ∣ \epsilon^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A^\pi(s,a)]| ϵπ=maxsEaπ[Aπ(s,a)],得到:

J ( π ′ ) − J ( π ) ≥ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A π ( s , a ) − 2 γ ϵ π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] J(π)J(π)1γ1Esdπ,aπ[Aπ(s,a)1γ2γϵπDTV(ππs)]

意义:这允许使用当前策略的状态分布 d π d^\pi dπ和优势函数 A π A^\pi Aπ近似新策略的回报,误差与策略差异相关。

推论2(Corollary 2)

对于约束成本 C i C_i Ci

J C i ( π ′ ) − J C i ( π ) ≤ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A C i π ( s , a ) + 2 γ ϵ C i π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] JCi(π)JCi(π)1γ1Esdπ,aπ[ACiπ(s,a)+1γ2γϵCiπDTV(ππs)]

其中 ϵ C i π ′ = max ⁡ s ∣ E a ∼ π ′ [ A C i π ( s , a ) ] ∣ \epsilon_{C_i}^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A_{C_i}^\pi(s,a)]| ϵCiπ=maxsEaπ[ACiπ(s,a)]

意义:为约束成本的增加提供上界,确保新策略不违反约束。

推论3(Corollary 3)

使用Pinsker不等式将 D T V D_{TV} DTV转换为KL散度:

D T V ( π ′ ∥ π ∣ s ) ≤ 1 2 D K L ( π ′ ∥ π ∣ s ) D_{TV}(\pi' \|\pi | s) \leq \sqrt{\frac{1}{2} D_{KL}(\pi' \|\pi | s)} DTV(ππs)21DKL(ππs) E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] ≤ 1 2 E s ∼ d π [ D K L ( π ′ ∥ π ∣ s ) ] \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]} Esdπ[DTV(ππs)]21Esdπ[DKL(ππs)]

意义:使界限与信任区域方法使用的KL散度约束兼容。

5.2 信任区域方法(Trust Region Methods)

信任区域方法更新策略为:

π k + 1 = arg ⁡ max ⁡ π E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \pi_{k+1} = \arg \max_{\pi} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] πk+1=argπmaxEsdπk,aπ[Aπk(s,a)] s.t. D ~ K L ( π ∥ π k ) ≤ δ \text{s.t.} \quad \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta s.t.D~KL(ππk)δ
其中 D ~ K L ( π ∥ π k ) = E s ∼ d π k [ D K L ( π ∥ π k ∣ s ) ] \tilde{D}_{KL}(\pi \|\pi_k) = \mathbb{E}_{s \sim d^{\pi_k}} \left[ D_{KL}(\pi \|\pi_k | s) \right] D~KL(ππk)=Esdπk[DKL(ππks)]

命题1(Proposition 1)

J ( π k + 1 ) − J ( π k ) ≥ − 2 δ γ ϵ π k + 1 ( 1 − γ ) 2 J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2} J(πk+1)J(πk)(1γ)22δ γϵπk+1

证明

  1. π k \pi_k πk是可行点,目标值为0,因此 E s ∼ d π k , a ∼ π k + 1 [ A π k ( s , a ) ] ≥ 0 \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi_{k+1}} \left[ A^{\pi_k}(s,a) \right] \geq 0 Esdπk,aπk+1[Aπk(s,a)]0
  2. 由推论1和推论3,结合 D ~ K L ≤ δ \tilde{D}_{KL} \leq \delta D~KLδ,得到下界。

5.3 约束MDP的信任区域优化

CPO的更新形式为:

π k + 1 = arg ⁡ max ⁡ π ∈ Π θ E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] πk+1=argπΠθmaxEsdπk,aπ[Aπk(s,a)]

s.t. J C i ( π k ) + 1 1 − γ E s ∼ d π k , a ∼ π [ A C i π k ( s , a ) ] ≤ d i , ∀ i \text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i, \quad \forall i s.t.JCi(πk)+1γ1Esdπk,aπ[ACiπk(s,a)]di,i

D ~ K L ( π ∥ π k ) ≤ δ \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta D~KL(ππk)δ

命题2(Proposition 2)

J C i ( π k + 1 ) ≤ d i + 2 δ γ ϵ C i π k + 1 ( 1 − γ ) 2 J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2} JCi(πk+1)di+(1γ)22δ γϵCiπk+1

证明:由推论2和推论3,结合KL散度约束推导。

第6部分:实际实现

论文的第6部分讨论了如何在实践中高效实现CPO算法,特别是在高维策略(如神经网络)的情况下。

6.1 近似求解CPO更新

直接求解公式(10)在高维参数空间中计算成本过高。CPO通过线性化和二次近似简化问题:

θ k + 1 = arg ⁡ max ⁡ θ g T ( θ − θ k ) \theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k) θk+1=argθmaxgT(θθk) s.t. c i + b i T ( θ − θ k ) ≤ 0 , i = 1 , … , m \text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0, \quad i=1,\ldots,m s.t.ci+biT(θθk)0,i=1,,m 1 2 ( θ − θ k ) T H ( θ − θ k ) ≤ δ \frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta 21(θθk)TH(θθk)δ

其中:

  • g g g:目标函数梯度, E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] Esdπk,aπ[Aπk(s,a)]的梯度
  • b i b_i bi:约束 i i i的梯度
  • H H H:KL散度的Hessian矩阵(Fisher信息矩阵)
  • c i = J C i ( π k ) − d i c_i = J_{C_i}(\pi_k) - d_i ci=JCi(πk)di

通过对偶问题求解:

max ⁡ λ ≥ 0 , ν ≥ 0 − 1 2 λ ( g T H − 1 g − 2 r T ν + ν T S ν ) + ν T c − λ δ 2 \max_{\lambda \geq 0, \nu \geq 0} \frac{-1}{2 \lambda} \left( g^T H^{-1} g - 2 r^T \nu + \nu^T S \nu \right) + \nu^T c - \frac{\lambda \delta}{2} λ0,ν0max2λ1(gTH1g2rTν+νTSν)+νTc2λδ

其中 r = g T H − 1 B r = g^T H^{-1} B r=gTH1B S = B T H − 1 B S = B^T H^{-1} B S=BTH1B B = [ b 1 , … , b m ] B = [b_1, \ldots, b_m] B=[b1,,bm]。对偶解为:

θ ∗ = θ k + 1 λ ∗ H − 1 ( g − B ν ∗ ) \theta^* = \theta_k + \frac{1}{\lambda^*} H^{-1} (g - B \nu^*) θ=θk+λ1H1(gBν)

对于单约束情况,论文提供了解析解(定理2),避免内循环优化。

6.2 可行性(Feasibility)

由于近似误差,CPO可能生成不可行策略。对于单约束情况,恢复策略为:

θ ∗ = θ k − 2 δ b T H − 1 b H − 1 b \theta^* = \theta_k - \sqrt{\frac{2 \delta}{b^T H^{-1} b}} H^{-1} b θ=θkbTH1b2δ H1b

通过回溯线搜索确保约束满足。

6.3 成本整形(Cost Shaping)

为增强约束满足的鲁棒性,CPO引入成本整形:

C i + ( s , a , s ′ ) = C i ( s , a , s ′ ) + Δ i ( s , a , s ′ ) C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s') Ci+(s,a,s)=Ci(s,a,s)+Δi(s,a,s)

其中 Δ i \Delta_i Δi是与安全性相关的附加项,例如预测进入不安全状态的概率。这种方法平滑了稀疏约束,减少违反风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白云千载尽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值