强化学习经典算法笔记(三):蒙特卡罗方法Monte Calo Method

强化学习经典算法笔记——蒙特卡罗方法

强化学习经典算法笔记(零):贝尔曼方程的推导
强化学习经典算法笔记(一):价值迭代算法Value Iteration
强化学习经典算法笔记(二):策略迭代算法Policy Iteration

  前三篇都是在环境模型已知的情况下求解最优算法,但是很多情况下,环境的模型是未知的,我们不清楚状态之间如何转移,回报的概率是多少,甚至不清楚全部的状态空间长什么样子。这种情况下,如果不采用model-based方法(即,对复杂环境进行建模,建模过程其实就是学习过程,模型建的充分了,智能体对环境就理解充分了,就可以得出最优policy),而是采用model-free的方法(不去对环境进行建模,只用采样的方式学习出一个最优policy),最经典的就是蒙特卡罗算法了。

蒙特卡罗方法

  蒙特卡罗的思想早已有之。谈及Monte Calo,必说布丰投针实验。我们做一个改进实验:一个正方形区域边长为 a a a,其中均匀分布了 N N N个散点,取定正方形左下角是原点 O O O,计算每个点与原点的距离 l l l,统计 l ≤ a l\le a la的点数量为 M M M,则
1 4 π a 2 a 2 = M N \frac{\frac14\pi a^2}{a^2}=\frac MN a241πa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值