- 博客(1)
- 收藏
- 关注
原创 深度强化学习心得:马尔可夫决策过程、动态规划
具体来说,对于某个状态s和动作a,动作价值函数Q(s, a)可以表示为在状态s下采取动作a后,获得的即时回报加上从下一个状态s'开始根据当前策略得到的长期回报的期望值,即Q(s, a) = R(s, a) + Σp(s'|s, a)V(s'),其中R(s, a)表示在状态s下采取动作a后获得的即时回报,p(s'|s, a)表示在状态s下采取动作a后转移到状态s'的概率,V(s')表示从状态s'开始根据当前策略得到的长期回报的期望值。演员-评论员智能体结合了基于价值的智能体和基于策略的智能体的优势。
2023-11-15 17:08:38
513
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人