
强化学习
Hua Zhu
自动驾驶从业者,涉及环境感知、规划控制、仿真器、ROS
展开
-
【机器学习】机器学习知识图谱:传统学习、神经网络、深度学习、强化学习、对抗学习等
注:以下为个人总结机器学习知识图谱,来源参考《机器学习》西瓜书、《深度学习》Udacity、《机器学习》Coursera等。原创 2019-01-01 15:59:25 · 2310 阅读 · 1 评论 -
【强化学习】强化学习:时间差分学习算法、SARSA(0)算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法(SARSA(0)算法)与神经网络模型相结合的迭代流程图流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、模型中使用的动作值的真值是用神经网络模型(使用NET步骤)进行估算后乘于折扣率加上当前奖励得到的。3、每一次迭代中,用来训练模型的状态值S、动作值A都是上一步迭代所得(on-line策...原创 2019-01-02 18:17:02 · 643 阅读 · 0 评论 -
【强化学习】强化学习:时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型相结合的迭代流程图(深度Q学习)流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、流程中需要先利用网络完成所有动作空间的动作值估算,然后根据max策略选取一个动作值作为动作估计值,再结合折扣系数、直接奖励估算真值。3、每一次迭代中,都会使用两...原创 2019-01-02 23:09:59 · 685 阅读 · 0 评论 -
【强化学习】深度强化学习:DQN(深度Q学习)、经验回放、固定Q目标迭代流程。
以下是深度强化学习:深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧。流程的关键点是:1、该流程是一个横向展开流程,从左向右是时间轴上的逐步迭代。2、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。3、除初始化环节,每个迭代循环分为两大步操作,以随机缓存区为分界,上部为采样环节(sample,提供新的数据),下部为学习环节...原创 2019-01-03 10:02:51 · 7702 阅读 · 0 评论