早阳辞暮-CSDN博客

原创深度强化学习心得：马尔可夫决策过程、动态规划

具体来说，对于某个状态s和动作a，动作价值函数Q(s, a)可以表示为在状态s下采取动作a后，获得的即时回报加上从下一个状态s'开始根据当前策略得到的长期回报的期望值，即Q(s, a) = R(s, a) + Σp(s'|s, a)V(s')，其中R(s, a)表示在状态s下采取动作a后获得的即时回报，p(s'|s, a)表示在状态s下采取动作a后转移到状态s'的概率，V(s')表示从状态s'开始根据当前策略得到的长期回报的期望值。演员-评论员智能体结合了基于价值的智能体和基于策略的智能体的优势。

2023-11-15 17:08:38 517 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 深度强化学习心得：马尔可夫决策过程、动态规划

空空如也

空空如也

原创深度强化学习心得：马尔可夫决策过程、动态规划