强化学习笔记一(周博磊)

文章探讨了强化学习的特点,如试错探索、延迟奖励和时间序列数据的影响。深度强化学习(DRL)通过结合深度学习,解决了高维状态的问题,实现特征提取和决策的端到端建模。Value-basedDRL利用强化学习生成标签,而Policy-basedDRL则像是带有Reward调整的常规分类问题升级版。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

课程链接
github
知乎
推荐书籍

1.强化学习的问题

Trial-and-error exploration
Delayed reward
Time matters (sequential data, non i.i.d data)
Agent’s actions affect the subsequent data it receives (agent’s action changes the environment)

2.深度强化学习

在deep learning之前,传统CV往往是先提取特征,再训练分类器。RL遇到高维状态也是这样。有了DRL,可以构造一个端到端的模型,同时完成特征提取和“分类”。看了一些value based paper,感觉这类DRL更像是利用强化学习来构造标签,利用神经网络来学习。而policy based DRL更像是在普通分类问题上加了一个Reward作为更新步长的refine。

### 李宏毅强化学习课程及相关资料 李宏毅老师的强化学习课程及其相关资料被广泛认为是初学者的理想选择之。这些资源不仅涵盖了基础理论,还包括实际应用案例和练习项目,能够帮助学习者全面掌握强化学习的核心概念和技术。 #### 开源笔记与补充材料 份详尽的学习笔记已经将李宏毅老师的讲课内容完全转化为文字形式,极大地方便了学习者的查阅需求[^1]。此笔记除了总结核心知识点外,还引入了其他权威来源的内容作为扩展阅读,例如周博磊老师的《强化学习纲要》以及李科浇老师的《百度强化学习》,从而构建了个完整的知识体系。 #### 开源项目 LeeDeepRL-Notes 针对希望深入研究该领域的人群,《LeeDeepRL-Notes》是个不可多得的开源项目。它汇集了李宏毅教授关于强化学习的教学精华,并通过结构化的文档呈现出来,便于理解复杂主题的同时也提供了实践机会来巩固所学的知识点[^2]。 #### 文字版本支持 对于偏好阅读而非观看视频的人来说,可以考虑访问特定GitHub仓库中的学习笔记。这里包含了基于李宏毅2020年机器学习系列讲座制作而成的文字记录,按章节划分清晰明了,适合不同阶段的学习需求[^3]。 #### Meta Learning 和 Few-Shot Learning 的关联讨论 值得注意的是,在现代人工智能技术发展中,元学习 (Meta-Learning) 成为了实现少样本学习(Few-shot learning)的关键方法之。这意味着如果想要探索如何利用有限数据完成高效训练模型,则需要进步了解并运用到此类高级技巧上[^4]。 ```python # 示例代码展示简单的Q-learning算法实现过程 import numpy as np def q_learning(env, num_episodes=500, alpha=0.8, gamma=0.95): Q = np.zeros([env.observation_space.n, env.action_space.n]) for i_episode in range(num_episodes): state = env.reset() done = False while not done: action = np.argmax(Q[state,:] + np.random.randn(1, env.action_space.n)*(1./(i_episode+1))) new_state, reward, done, _ = env.step(action) # 更新Q表 Q[state,action] += alpha * (reward + gamma*np.max(Q[new_state,:]) - Q[state,action]) state = new_state return Q ``` 上述Python脚本展示了基本Q-learning算法的个简单例子,这是强化学习中最经典的离线策略时间差分控制方法之。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值