按道理,模型有关是指转移概率和即时奖励都是已知的。
然而这里,SARSA/Q-Learning 显然是可以计算出 r 和 s' 的,那为什么我们还说他是模型未知的,既然未知,我们怎么能算出 r 和 s' 呢?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

已结题
SARSA/Q-Learning 为什么是模型无关的?
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除
- 收藏 举报
0条回答 默认 最新
报告相同问题?
提交
- 2023-01-03 15:54原创小白变怪兽的博客 optimal path,最后根据Q值来得出最终的策略,以此来对上图进行复现 Sarsa和Q-Learning算法对比 Sarsa算法 Q-Learning算法 首先要介绍的是什么是ε-greedy,即ε-贪心算法,一般取定ε为一个较小的0-1之间的值(比如...
- 2023-12-15 23:03xueyongfu的博客 Q-learning时value-based的方法,学习的不是policy,而是critic,critic并不直接决定action,而是评估一个actor有多么的好。通过把state输入到值网络中,从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法,...
- 2024-07-31 19:57小城哇哇的博客 SARSA(State-Action-Reward-State-Action)是一个学习...它由Rummery 和 Niranjan在技术论文“Modified Connectionist Q-Learning(MCQL)” 中介绍了这个算法,并且由Rich Sutton在注脚处提到了SARSA这个别名。
- 2022-07-14 10:35强化学习是人工智能领域的一个重要分支,它关注智能体如何通过与环境交互来学习最优策略,以最大化长期奖励。本章重点介绍了两种常见的强化学习算法:Q-learning和SARSA。这两种算法都基于Temporal Difference(TD)...
- 2020-04-03 17:01铃灵狗的博客 最近在看Qlearning和Sarsa的机器强化学习算法,两个都看了之后突然很蒙,昨天差不多有一整天吧,一直被标题这两个问题所困扰着,在这里记录下自己的心得,以及希望给和我一样有过困扰或者正在有困扰的同学做出...
- 2022-04-09 17:11zstar-_的博客 Sarsa和Q-Learning的一个实例研究
- 2021-08-21 12:09小菜羊~的博客 本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。
- 2023-07-18 22:15Q-learning是一种无模型的、离策略的强化学习算法,它的核心思想是通过构建Q表来学习一个智能体在给定状态下的最优行动。Q表记录了在每种状态下执行每种动作所能获得的期望奖励。随着时间的推移,通过不断更新Q表,...
- 2023-04-16 20:51kill bert的博客 Sarsa 是一种on-policy算法,它优化的是它实际执行的策略,它直接用下一步会执行的动作去优化 Q 表格。在学习的过程中,只存在一种策略,它用同一种策略去做动作的选取和优化。所以 Sarsa 知道它下一步的动作有可能...
- 2024-06-24 16:27timer_017的博客 强化学习是一种机器学习方法,它关注智能体如何通过与环境的交互来最大化期望的累积奖励。在这个过程中,智能体不断尝试不同的行为策略,并根据结果调整策略,以提高长期的性能。
- 2020-05-23 10:18waitingwinter的博客 关于Q-learning 和 Sarsa 算法, 详情参见博客 需要注意的细节 训练时 采用 ϵ\epsilonϵ 贪心算法; # 贪婪动作选择,含嗓声干扰 a = np.argmax(Q_all[s, :] + np.random.randn(1, env.action_space.n) * (1. / (i ...
- 2025-05-20 03:30lqjun0827的博客 强化学习环境一般建模为一个马尔可夫决策过程(MDP)SAPRγSAPRγSS:状态空间AA:动作空间Ps′∣saP(s'|s,a)Ps′∣sa:状态转移概率RsaR(s,a)Rsa:奖励函数γ∈01γ∈01:折扣因子目标是学习一个策略π\piπ下的...
- 2022-06-16 20:25Acautoai的博客 时间差分算法二.SARSA算法2.1算法介绍2.2算法优缺点三.Q-learning算法3.1算法介绍3.2算法优缺点 时间差分算法可以利用智能体在环境中时间步之间的时序差,通过学习由时间间隔产生的差分数据对强化学习问题进行求解。...
- 2021-10-24 23:59Kevin Tang的博客 Sarsa算法和Q-learning算法是两种基于表格的经典强化学习方法,本文将对比探究这两种方法在解决悬崖行走(CliffWalking)问题时的表现。
- 2022-10-01 16:55@白圭的博客 首先,我们需要建立一个全零的Q表,然后让模型以ξ-greedy的概率选择exploitation(最优)或者是exploration(随机探索)。更新Q表的方法如上图的公式,新的。具体而言,对于Q-learning算法,可以在每一次Q值更新完后,...
- 2024-07-07 12:18TheJustice_的博客 Q-Learning和Sarsa是两种经典的强化学习算法,各有优缺点。Q-Learning通过最大化未来的预期回报来更新Q值,具有更强的探索性;而Sarsa则使用实际执行的动作进行更新,更注重策略的稳定性。通过实际代码示例,我们...
- 2022-06-02 10:59leelee6591的博客 本文基于小方格世界模型,实现了DP(动态规划)、Q-learning、sarsa和MC(蒙特卡洛)算法。
- 2024-02-15 16:24强化学习是人工智能的一个重要分支,它通过让智能体与环境互动,学习如何在特定环境中采取行动以最大化奖励。Q-Learning是强化学习中一种模型自由的方法,它允许智能体在未知动态环境下学习最优策略。 首先,我们...
- 2021-04-10 23:33与Q-Learning不同,SARSA是策略迭代而非价值迭代,它更加注重实际执行的动作序列。 **深度强化学习(Deep Reinforcement Learning, DRL)** 是将深度学习技术与强化学习相结合的一种方法。深度学习用于处理复杂的...
- 没有解决我的问题, 去提问