4.1 随机策略与策略梯度
4.1.1 Value-based & Policy-based
常见的确定性策略有:Sarsa, Q-learning, DQN
常见的随机性策略有:Policy gradient
确定性策略优先优化Q网络,输出的是确定性的策略(结果)。
随机性策略输出的是不同动作的概率,在随机性的场景较为适用,比如小游戏剪刀石头布。
4.1.2 Softmax函数
4.1.3 随机性策略举例
> Episode(一轮)
4.1.4 轨迹Trajectory——每个episode都有一条轨迹
Tip: 我们可以优化agent的选择,但不能控制环境的随机性。
4.1.5 期望回报——可通过采样n个episode来计算
4.1.6 优化策略函数
4.1.7 策略梯度——增大高分数的概率
4.2 Policy Gradient算法
4.2.1 蒙特卡洛MC与时序差分TD
Gt 未来总收益之和
4.2.2 REINFORCE
公式推导补充
4.2.3 交叉熵——类比监督学习来理解Policy Gradient
4.2.4 Policy Gradient
Loss构造分析
4.2.5 REINFORCE流程图
4.3 PARL Policy Gradient
4.3.1 PARL Policy Gradient——model
import parl
from parl import layers
class Model(parl.Model):
def __init__(self, act_dim):
act_dim = act_dim
hid1_size