任务:自动驾驶具备人的行为智能(指导Agent在XX的环境中做出最优决策的模型框架)的目的。
针对自动驾驶问题,提出不需要专家知识辅助的
简单说明:增强学习中神经网络需要完成的任务:针对图像,通过(神经网络)抽象出任务所处环境的特征信息,将特征信息与动作行为之间建立联系(相比于传统图像识别任务:特征信息与识别目标位置、类别之间建立联系)。Agent需要与环境层(真实环境,模拟环境,游戏环境)相互试探交互,数据交互层通过传感器、评判器、执行器来负责环境与Agent交互过程中数据的传输、存储、回放等任务,通过传感器和游戏引擎可以完整或者部分观测到环境的状态信息,将状态信息定义为状态空间S={s1,s2,……},通过处理层(依据策略)对状态S分析计算得到最优动作(定义动作空间为A={a1,a2,……}),将最优动作通过执行器执行并得到下一状态,这一部分仅涉及网络的前向预测。对于策略的训练和优化,需要借鉴评判器对每次动作执行完成后的状态进行评判获得奖励值,评判器的评判规则将会直接约束学习到的策略(如左图,以自动驾驶为例:任务为驾驶车辆从起点到终点在规定跑道内行驶,压黑色边线或
指导Agent在XX的环境中做出最优决策的模型框架
最新推荐文章于 2025-05-08 19:00:00 发布