【学习笔记】Lesson4-基于策略梯度求解RL（强化学习7日打卡营-世界冠军带你从零实践）

最新推荐文章于 2025-01-03 15:45:55 发布

Kevin-Pang

最新推荐文章于 2025-01-03 15:45:55 发布

阅读量466

点赞数 1

文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/qq_41138197/article/details/106972907

版权

4.1 随机策略与策略梯度

4.1.1 Value-based & Policy-based

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gEJ2WUNj-1593166266004)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623122051595.png)]

常见的确定性策略有：Sarsa, Q-learning, DQN
常见的随机性策略有：Policy gradient

确定性策略优先优化Q网络，输出的是确定性的策略（结果）。
随机性策略输出的是不同动作的概率，在随机性的场景较为适用，比如小游戏剪刀石头布。

4.1.2 Softmax函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LgS9MGaL-1593166266008)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623145804421.png)]

4.1.3 随机性策略举例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zo4HzecE-1593166266009)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150042897.png)]
＞　Episode(一轮)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vfGVOOtF-1593166266010)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150424414.png)]

4.1.4 轨迹Trajectory——每个episode都有一条轨迹

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rgpjhbeK-1593166266011)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150658182.png)]

Tip: 我们可以优化agent的选择，但不能控制环境的随机性。

4.1.5 期望回报——可通过采样n个episode来计算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8kQrQOc-1593166266012)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155947688.png)]

4.1.6 优化策略函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-97SZeqc9-1593166266013)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623154859057.png)]

4.1.7 策略梯度——增大高分数的概率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-irhrUfqq-1593166266013)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155219378.png)]

4.2 Policy Gradient算法

4.2.1 蒙特卡洛MC与时序差分TD

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-utSC8SQb-1593166266014)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155706748.png)]

Gt 未来总收益之和

4.2.2 REINFORCE

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uw9KgS05-1593166266015)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160110376.png)]

公式推导补充

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AniqvEuT-1593166266016)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160547132.png)]

4.2.3 交叉熵——类比监督学习来理解Policy Gradient

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GwwWGqD7-1593166266017)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160956093.png)]

4.2.4 Policy Gradient

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vcFIJN3j-1593166266017)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623161246038.png)]

Loss构造分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T2nyvk27-1593166266018)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162141285.png)]

4.2.5 REINFORCE流程图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ESdguRXI-1593166266019)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162453378.png)]

4.3 PARL Policy Gradient

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-79xXOYJQ-1593166266020)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162722790.png)]

4.3.1 PARL Policy Gradient——model

import parl
from parl import layers


class Model(parl.Model):
    def __init__(self, act_dim):
        act_dim = act_dim
        hid1_size

最低0.47元/天解锁文章