【RL从入门到放弃】【五】

1、数学基础

随机变量

一般使用小写来表示,比如说a:action就是随机变量,随机变量可以是连续的也可以是离散的

概率分布

概率分布来描述随机变量在每个可能取到的值处的可能性。离散型随机变量的概率分布常概率质量函数来描述,即随机变量在离散点处的概率。连续型随机变量的概率分布则概率密度函数来描述。在图 2.3中,指定一个策略 就是指定取每个动作的概率。

离散:概率质量函数      连续:概率密度

条件概率

策略π(a|s)是条件概率。条件概率是指在其他事件发生时,我们所关心的事件所发生的概率。在我们的例子中π(a|s)是指在当前状态s处,采取某个动作 a的概率。当给定随机变量【这里应该是随机策略】后,状态s处的累积回报G(s)也是随机变量,而且其分布由随机策略 π决定。状态值函数定义为该累积回报的期望。

期望

函数 f(x)关于某分布 p(x)的期望是指,当 x 由分布p(x) 产生、作用于 x时, f(x)的平均值。对于离散型随机变量,期望公式为

红色部分应该是指x由p(x)产生

连续型:可以由积分来计算

期望的运算是线性的,即

或者网上介绍的:

分布

某分布可以参考0-1分布、二项分布或者正态分布

方差

方差是衡量利用当前概率分布采样时,采样值差异的大小

是当前值与期望的差值的平方的期望

从定义我们可以看到,方差越小,采样值离均值越近,不确定性越小。尤其是方差很小时,采样值都集中在均值附近,因此不确定性很小(这时,你猜测采样值是均值,那么该猜测离实际采样点很近)。方差的平方根被称为标准差

2、线性方程组的迭代求解

计算策略已知的状态值函数时,3.4为一个线性方程组。策略就变成了线性方程组的求解。

线性方程组的数值求解包括直接法(如高斯消元法,矩阵三角分解法,平方根法、追赶法等)和迭代解法。策略评估中采用线性方程组的迭代解法

迭代解法

不失一般性,用方程(3.17)表示一般的线性方程组。

所谓迭代解法是根据(3.17)式设计一个迭代公式,任取初试值X0,将其代入到设计的迭代公式中,得到X1 ,再将X1 代入迭代公式中得X2,如此循环最终得到收敛的X【为什么这里要拿到最后收敛的X】

迭代公式

雅克比迭代法假设系数矩阵的对角元素 aii != 0。从(3.17)的第i个方程分离出Xi ,以此构造迭代方程:

则3.18方程设计为:

则公式为:

进行迭代计算时公式变为:

雅克比迭代法:利用X = BX + d求解方程组AX=b

利用迭代公式(3.20)求解线性方程组(3.17)的方法称为雅克比迭代法。矩阵B称为迭代矩阵

高斯-塞得迭代法

雅克比迭代法解线性方程很快,还能不能更快?答案是肯定的。我们可以观察(3.21),不难发现第 k+1次迭代计算分量时,分量已经计算出来了,雅克比迭代方法没有利用这些新计算出来的值。如果这些新计算出来的值能够被利用,计算速度肯定会提升,这就是高斯-赛德尔迭代法。

当求得新的分量之后,马上用来计算的迭代算法称为高斯-赛德尔迭代法。对于线性方程组,对应于雅克比迭代过程(3.21)的高斯-赛德尔迭代过程为

用矩阵的形式可表示为

写成迭代方程为

其中G为

3、统计学基础

总体

包含所研究的全部数据的集合

样本

从总体中抽取的一部分元素的集合。在 episode 强化学习中,一个样本是指一幕数据

统计量

用来描述样本特征的概括性数字度量。如样本均值,样本方差,样本标准差等。在强化学习中,我们的样本均值衡量状态值函数

样本均值

为样本容量为n的随机样本,它们是独立同分布的随机变量,则样本均值为

样本均值也是随机变量

样本方差

为样本容量为n的随机样本,它们是独立同分布的随机变量,则样本均值为

方差的平方根就是样本标准差

无偏估计

若样本的统计量等于总体的统计量,则称该样本的统计量所对应的值为无偏估计。如总体的均值和方差分别为u和

蒙德卡罗积分

蒙特卡罗方法常用来计算函数的积分,如计算下式积分

如果f(x)的函数形式非常复杂,则(4.13)式无法应用解析的形式计算。这时,我们只能利用数值的方法计算。利用数值的方法计算(4.13)式的积分需要取很多样本点,计算 在这些样本点处的值,并对这些值求平均【为什么要这样做】。那么问题来了:如何取这些样本点?如何对样本点处的函数值求平均呢?

将4.13式变化为如下:

为已知分布

问题1:如何取样本点?
答:因为 是一个分布,所以可根据该分布进行随机采样,得到采样点。
问题2:如何求平均?
答:根据分布 采样 后,在样本点处计算 ,并对所有样本点处的值求均值:

上面就是蒙德卡罗积分的原理

当X 表示随机变量,且服从概率分布,计算函数g(x) 的期望。

利用蒙特卡罗的方法计算该式很简单,即不断地从分布 中采样,然后对这些 取平均便可近似 的期望。这也是4.1节中估计值函数的方法。只不过那⾥的一个样本是一个episode,每个episode 产生一个状态值函数,蒙特卡罗的方法估计状态值函数就是把这些样本点处的状态值函数加起来求平均,也就是经验平均。

随机采样方法

当目标分布 复杂或未知时,我们无法得到目标分布的采样点,无法得到采样点就⽆法计算(4.15)式,也就无法计算平均值。这时,我们需要利用统计学中的各种采样技术。

常用的采样无法有两类。第一类是指定一个已知的概率分布p(x) 用于采样,指定的采样概率分布称为提议分布。这类采样方法包括拒绝采样和重要性采样。此类方法只适用于低维情况,针对高维情况常采用第2类采样方法,即马尔科夫链蒙特卡罗的方法。该方法的基本原理是从平稳分布为的马尔科夫链中产生非独立样本

1、拒绝采样

 

2、重要性采样

3、MCMC采样

4、压缩算法证明策略评估的收敛性

向量形式证明压缩映射

值函数的定义出发进行证明

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值