【深度强化学习 DRL 快速实践】Value-based 方法总结

在这里插入图片描述

Value-based 方法解决的问题是:怎么评估给定策略下的某个状态值的好坏呢?

  • 【深入思考】value-based 相对于 policy-based 会更好训练,因为相当于只要学到一个 value function 能拟合上实际获得的回报,那么就训练好了,就能根据回报的丰厚程度选择合适的 action 来应对需要解决的强化学习问题了 – 其实,类似监督学习

强化学习中的 Value-based 方法总结

在强化学习(Reinforcement Learning, RL)中,Value-based 方法主要是学习一个价值函数(Value Function),然后基于价值函数来决策。常见的 Value-based 方法包括:

  • Monte Carlo 方法 (MC)
  • 时序差分方法 (Temporal Difference, TD)

本文将分别介绍这些方法的核心思想、更新公式,并通过表格对它们的无偏性和方差进行对比总结


1. Monte Carlo 方法 (MC)

Monte Carlo 方法通过完整采样一条轨迹(直到终止),然后用 整条轨迹 上实际获得的总回报 G t G_t Gt来估计价值函数

V ( s t ) ← V ( s t ) + α ( G t − V ( s t ) ) , where  G t = ∑ k = 0 T − t γ k r t + k V(s_t) \leftarrow V(s_t) + \alpha \left( G_t - V(s_t) \right),\text{where }G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k} V(st)V(st)+α(GtV(st)),where Gt=k=0Ttγkrt+k

2. 时序差分方法 (TD)

TD 方法结合了 Monte Carlo 和动态规划的思想,它只利用 一个时间步 的采样,并且使用当前价值估计进行更新,最常用的是 TD(0) 方法:

V ( s t ) ← V ( s t ) + α ( r t + γ V ( s t + 1 ) − V ( s t ) ) V(s_t) \leftarrow V(s_t) + \alpha \left( r_t + \gamma V(s_{t+1}) - V(s_t) \right) V(st)V(st)+α(rt+γV(st+1)V(st))


各方法对比总结

方法是否无偏方差水平特点
Monte Carlo (MC)基于完整回合真实回报进行无偏估计,适合无模型环境
Temporal Difference (TD)只看一步,收敛速度快、稳定,但引入了偏差
  • 在实际应用中,TD 方法(如 SARSA、Q-learning)最为广泛使用,因为它无需完整轨迹,学习效率更高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值