
Actor-Critic原理与PPO算法推导,李宏毅课程PPT讲解
下载需积分: 31 | 1.05MB |
更新于2023-12-31
| 128 浏览量 | 举报
1
收藏
Actor-Critic原理和PPO算法是强化学习中常用的算法之一。在这篇文章中,我们将详细介绍Actor-Critic原理和PPO算法的推导及其核心思想。
首先,让我们来了解一下Actor-Critic框架的工作原理。Actor-Critic算法中包含了两个部分,分别是Actor和Critic。Actor负责生成动作,而Critic则评估Actor生成的动作的好坏。
在这个框架中,环境(Env)会提供当前的状态,并根据Actor生成的动作给出奖励(Reward)。一个episode就是一场游戏的过程,我们的目标就是最大化获得的总奖励。
接下来,我们将介绍PPO算法的推导过程。在PPO算法中,当Actor的参数为θ时,某个动作a发生的概率为π(a|θ)。我们希望最大化这个期望值,即最大化E[π(a|θ)]。
然而,由于概率π(a|θ)是无法直接计算的,我们只能通过采样得到。假设在采样中,动作a出现的次数为N(a),总的奖励为R(a)。我们可以将N(a)视为(状态,动作)对的权重。
为了解决reward可能总是正的问题,我们需要引入一个baseline。如果某个action未被采样到,那么它出现的概率会下降。通过引入baseline可以解决这个问题。
除了引入baseline之外,我们还需要分配适当的credit,即给每个动作分配合适的权重。这是因为所有的动作可能对最终的总奖励有不同程度的贡献。
总结一下,Actor-Critic原理和PPO算法通过将强化学习问题分成Actor和Critic两个部分来解决。在PPO算法中,我们希望最大化Actor生成动作的期望值,但由于无法直接计算,需要通过采样得到。除此之外,我们还需要引入baseline来解决reward总是正的问题,并且需要分配适当的credit来给每个动作分配权重。
综上所述,Actor-Critic原理和PPO算法是强化学习中非常重要的算法,通过理解和应用这些算法,我们可以提高强化学习的效果。
相关推荐





AllesGute666
- 粉丝: 1
最新资源
- 下载Appium桌面版mac系统最新1.13.0版本
- Spotify导入工具SpotifyImporter的使用教程
- 实时数据仪表盘:Android MyDashBoardViwe应用开发
- 使用TLABR和统计工具箱进行Matlab开发的介绍
- jquery-rebox:响应式Lightbox相册插件使用简介
- Android UITableView使用指南与示例项目下载
- Android页面特效集合源码分享
- 股票基金数据分析报告PPT模板
- 基于Java的城市管理综合执法系统设计与实现
- C++基础课程:语法、代码与数据结构学习
- Django-Push-Notifications:强大的推送通知开发包
- 橘红色在线客服代码实现及功能设置
- Matlab实现Kaggle癫痫预测解决方案及工作流程解析
- Android HorizontalPicker:中心放大效果的选择器控件
- 紫色动态寿司日本料理PPT模板下载
- Ubuntu下SPEC2000资源安装与性能测试指南
- Android圆形进度条三种缓冲效果的源码
- MiracleCloud:新一代虚拟化云管理平台特性解析
- Matlab矢量化计算太阳方位角和高度角
- Riak Ruby客户端库:Ruby语言的分布式数据库工具
- 响应式多功能jquery相册插件Strip的介绍与应用
- jQueryUI打造多功能美化Select下拉框插件
- 移动互联网工作总结计划PPT模板下载
- Android时间轴实现:步骤快递更新的最佳实践