用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？

每盘总奖励的曲线.
用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？
如果有问题，有什么办法解决？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

AI 智能物流路径规划里强化学习的核心价值
2025-05-29 14:57

AIGC应用创新大全的博客物流行业的“最后一公里”成本占比超50%，路径规划效率直接影响...本文聚焦**强化学习（Reinforcement Learning, RL）**这一AI技术，探讨其如何破解物流路径规划的动态优化难题，覆盖技术原理、实战案例与行业价值。
AI Agent: AI的下一个风口具身机器人的发展趋势
2024-08-08 09:48

AI天才研究院的博客 AI Agent: AI的下一个风口具身机器人的发展趋势 1. 背景介绍 1.1 人工智能的发展历程 1.1.1 早期人工智能
基于强化学习的AI智能制造柔性生产线实时优化
2025-03-14 12:48

AI天才研究院的博客在当今制造业快速发展的背景下，智能制造成为了提升生产效率、降低成本、提高产品质量的关键方向。柔性生产线作为智能制造的重要组成部分，能够根据不同的生产需求快速调整生产流程和工艺参数，实现多品种、小批量的...
自动泊车强化学习训练及小车实地部署
2024-02-22 13:29

人工智能_SYBH的博客 Garrido-Jurado等人于2014年在一文中提出，在opencv的官方文档中可以找到ArUco的使用方法。ArUco 标记是由宽黑色边框和确定其标识符（id）的内部二进制矩阵组成的正方形标记，被广泛用来增加从二维世界映射到三维...
多智能体系统简介：MARL、协同机制与典型结构
2025-04-09 21:45

观熵的博客从游戏 AI 到分布式机器人系统，从多 Agent RAG 到 LLM × 工具链联动，**多智能体系统（Multi-Agent Systems, MAS）**正在成为构建复杂 AI 应用的核心范式。本篇我们将带你认识多智能体系统的基本类型、协作机制与...
基于深度强化学习算法的仿真到实践教程
2022-11-07 13:55

方小生–的博客我的毕业论文主要是使用DQN，PPO，SAC仿真，然后放到车上跑（效果不太好）。 DQN和PPO是离散控制，SAC是连续控制。代码说明： DQN是依照turtlebot3官方代码修改的pytorch版本，因为tensorflow配置环境有点难（用过...
深度强化学习在机器人自主学习中的突破
2024-11-22 05:46

AI天才研究院的博客它的起源可以追溯到20世纪50年代，当时人工智能（Artificial Intelligence，简称AI）的先驱们开始探索如何通过机器自主学习来解决问题。早期的研究主要集中在基于规则的系统和简单的强化学习算法上，如Q-learning和...
强化学习与自适应控制原理与代码实战案例讲解
2024-12-02 11:12

AI大模型应用实战的博客强化学习与自适应控制原理与代码实战案例讲解关键词：强化学习, 自适应控制, 马尔可夫决策过程, Q-learning, SARSA, DQN, PPO, A3C, 代理(Agent), 应用案例, 代码实战 1. 背景介绍
机器人强化学习入门学习笔记(二)
2025-05-05 19:30

xiaomu_347的博客简单易实现（比 TRPO 简洁）稳定性强可用于高维动作空间（如机械臂、二足机器人）官方 ...鲁棒性强比 DDPG 更稳定可靠动作输出确定性高，适合精准控制任务样本效率较好（off-policy）适用于机械臂、小车控制等任务。
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
2018-01-31 00:00

人工智能学家的博客来源：德先生概要：2016年初，AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究，取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, ...
从零到工业落地！深度学习驱动扫地机器人路径规划全攻略（附源代码+ROS仿真+硬件部署）
2025-05-26 18:34

AI_DL_CODE的博客通过构建多模态感知融合网络与改进型近端策略优化（PPO）决策模型，设计自适应奖励函数动态调整机制，并基于ROS与Gazebo搭建全链路仿真测试平台。详细展示硬件选型、算法代码实现、模型训练优化及实际部署流程，提供...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月5日

用PPO2做小车避障，reward上升之后一直是平的，这种现象正常吗？

0条回答 默认 最新

问题事件

0条回答默认最新