ZenMoore6345 2021-08-26 01:32 采纳率: 20%
浏览 13
已结题

强化学习的策略梯度是怎么计算的?

img

这里从第二步到第三步是怎么推导的?G(\tau_{0:t}) 怎么消失了?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 9月3日
    • 创建了问题 8月26日