强化学习基于价值与基于策略

### 基于价值的方法与基于策略方法的比较 #### Q-Learning的核心原理 Q-Learning属于基于价值的学习方法，旨在学习最优的动作值函数\(Q^*(s, a)\)，即给定状态下采取某行动所能获得的最大期望回报。此方法利用贝尔曼方程迭代更新估计值，直到收敛至真实值[^1]。对于离散动作空间的任务而言，由于不需要显式定义环境模型即可工作良好，并且易于理解和实现，因此成为入门级研究者首选工具之一。 ```python import numpy as np def q_learning(env, num_episodes=500, alpha=0.8, gamma=0.95): """ 实现简单的Q-learning算法 """ # 初始化Q表 q_table = np.zeros([env.observation_space.n, env.action_space.n]) for i in range(num_episodes): state = env.reset() while True: action = choose_action(state, q_table) # 根据当前状态选择行为 next_state, reward, done, _ = env.step(action) old_value = q_table[state, action] next_max = np.max(q_table[next_state]) new_value = (1 - alpha) * old_value + \ alpha * (reward + gamma * next_max) q_table[state, action] = new_value if done: break state = next_state return q_table def choose_action(state, q_table, epsilon=0.1): """ ε-greedy 策略选取action""" ... ``` #### Policy Gradient的核心原理相比之下，Policy Gradient是一种直接针对参数化概率分布πθ(a|s)进行优化的技术，它试图最大化累积奖励关于这些参数的期望值。这种方法允许处理更广泛类型的决策过程——特别是那些涉及高维甚至无限大连续控制变量的情况，在这类环境中难以构建有效的表格表示法或近似器。通过梯度上升调整权重向量w使得目标J(w)=E[Rt]尽可能增大，其中Rt代表从时间步t开始到结束所收到的所有折扣后的即时奖励之和。值得注意的是，为了稳定训练并提高样本效率，通常会引入基线b(s_t; w_b)(如平均历史收益)来减少方差而不影响无偏性。 ```python import torch from torch.distributions import Categorical class PolicyGradientAgent(torch.nn.Module): def __init__(self, input_dim, output_dim): super().__init__() self.fc = torch.nn.Linear(input_dim, 64) self.out = torch.nn.Linear(64, output_dim) def forward(self, x): h = F.relu(self.fc(x)) logits = self.out(h) dist = Categorical(logits=logits) return dist.sample(), dist.log_prob(dist.sample()) agent = PolicyGradientAgent(observation_size, n_actions) for episode in range(total_episodes): obs = env.reset() log_probs = [] rewards = [] while not done: action, log_prob = agent(torch.tensor(obs).float()) new_obs, reward, done, info = env.step(action.item()) log_probs.append(log_prob) rewards.append(reward) obs = new_obs update_policy(agent.optimizer, log_probs, rewards) ``` #### 各自的优点与局限性 - **Q-Learning** - 优点：无需事先知道转移概率矩阵P(s'|s,a); 对小型有限MDPs非常有效；容易与其他技术相结合形成新的变种版本。 - 缺点：仅限用于低维度的状态-动作对组合；当面对大规模问题时可能会遇到计算资源瓶颈以及泛化能力不足等问题。 - **Policy Gradients** - 优点：可以直接作用于任何可微分的概率型映射关系之上；支持端到端的学习框架设计；更容易推广到复杂的现实世界挑战之中去。 - 缺点：性能高度依赖于初始化质量；存在较高的采样需求从而增加了探索成本；可能陷入局部极小解而非全局最优点附近徘徊不前。 #### 应用场景的选择依据如果任务具有较小规模、明确界限良好的离散选项集，则倾向于采用像DQN这样的value-based方案更为合适一些。而对于涉及到多模态感知输入或者需要精细调控输出幅度的情形来说，policy gradient family无疑提供了更加灵活强大的解决方案路径。

阅读全文

强化学习基于价值与基于策略

相关推荐

基于蒙特卡洛树搜索和策略价值网络（强化学习）的AI五子棋算法

【强化学习领域】强化学习算法分类综述：基于模型与无模型、价值与策略方法及应用场景分析

基于蒙特卡洛树搜索和策略价值网络（强化学习）的AI五子棋算法设计.docx

基于深度强化学习的微网能量管理策略.zip

基于深度强化学习的主动配电网电压控制策略

基于蒙特卡洛树和策略价值网络的深度强化学习五子棋源码+详细文档说明

基于多智能体深度强化学习的最优拍卖策略分析与实现设计源码

基于强化学习理论的智能体控制策略设计源码

基于深度强化学习的住宅区电动汽车充电策略

人工智能-项目实践-强化学习-基于强化学习的五子棋

基于深度强化学习的主动配电网电压控制策略matlab源码+数据.zip

基于深度强化学习的微电网储能调度策略研究.pdf

基于蒙特卡洛树和策略价值网络的深度强化学习五子棋项目源码+说明（期末大作业）

基于深度强化学习的群体对抗策略研究.pdf

基于记忆探索策略的有模型深度强化学习算法.pdf

基于强化学习与深度强化学习的游戏AI训练.zip

基于云推理模型的深度强化学习探索策略研究.pdf

深度学习Q-learning算法解析：价值函数与强化学习策略

第2章微型计算机系统基础知识.pptx

计算机视觉_OpenCV455图像处理库_MinGW-W64跨平台编译工具链_基于Windows11系统使用CMake3213构建的x86_64-posix-seh架构动态链接库版本_包含SS.zip

大家在看

UML2.0设计手册.pdf

nvm-windows-v1.1.12

jdk-8u251-linux-x64.tar.zip

赛迪研究院2025年deepseek大模型生态报告150页.pdf

orion-ld:这是一个镜像仓库。 请从https叉

最新推荐

基于值函数和策略梯度的深度强化学习综述_刘建伟.pdf

第2章微型计算机系统基础知识.pptx

计算机视觉_OpenCV455图像处理库_MinGW-W64跨平台编译工具链_基于Windows11系统使用CMake3213构建的x86_64-posix-seh架构动态链接库版本_包含SS.zip

Sdcms1.3.1版本发布：优质资源的整合与更新

【系统稳定性测试必学】：利用HAL_GetTick()进行精确的定时器分析

迟滞比较器怎么设置阀值

Android开发技巧：实现ListView带固定表头功能

【定时器与计数器选择攻略】：HAL_GetTick()在实际应用中的应用分析

ModuleNotFoundError: No module named 'constant'

深入学习Microsoft CRM 2011中文版教程

orion-ld:这是一个镜像仓库。请从https叉