学渣想做学霸-CSDN博客

原创强化学习学习笔记——马尔可夫决策过程（二）

强化学习学习笔记——马尔可夫决策过程（二）马尔科夫奖励过程（Markov Reword Process，MRP）爱学习的马尔科夫蛙状态值函数（State-Value Function）马尔科夫奖励过程（Markov Reword Process，MRP）我更愿意叫它马尔科夫回馈过程。这里，马尔科夫回馈过程通过一个四元组<S,P,R,γ><S,P,R,\gamma><S,P,R,γ>来表示。定义：\quad马尔科夫回馈过程为<S,P,R,γ><S

2020-11-15 17:19:12 282 1

原创强化学习学习笔记——马尔可夫决策过程（一）

这里写自定义目录标题前言马尔可夫决策过程概述功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前言虽然不是第一次学强化学习的内容，但这确实是我第一次在网上开始写学习笔记。写学习笔记的原因有两个：首先是因为，自己学了好久都学不

2020-11-08 14:08:59 1620

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lichang12120的专栏

原创强化学习学习笔记——马尔可夫决策过程（二）

原创强化学习学习笔记——马尔可夫决策过程（一）

visual assist x

雨滴桌面秀-皮肤包1

雨滴桌面秀-皮肤包2

空空如也

原创 强化学习学习笔记——马尔可夫决策过程（二）

原创 强化学习学习笔记——马尔可夫决策过程（一）

visual assist x

雨滴桌面秀-皮肤包1

雨滴桌面秀-皮肤包2

空空如也

原创强化学习学习笔记——马尔可夫决策过程（二）

原创强化学习学习笔记——马尔可夫决策过程（一）