关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
Kw!G
2021-12-05 17:28
采纳率: 60%
浏览 20
首页
人工智能
已结题
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
机器学习
python
深度学习
每盘总奖励的曲线.
用PPO2做小车避障,reward上升之后一直是平的,这种现象正常吗?
如果有问题,有什么办法解决?
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
收藏
举报
0
条回答
默认
最新
查看更多回答(-1条)
向“C知道”追问
报告相同问题?
提交
关注问题
AI 智能物流路径规划里强化学习的核心价值
2025-05-29 14:57
AIGC应用创新大全的博客
物流行业的“最后一公里”成本占比超50%,路径规划效率直接影响...本文聚焦**强化学习(Reinforcement Learning, RL)**这一AI技术,探讨其如何破解物流路径规划的动态优化难题,覆盖技术原理、实战案例与行业价值。
AI Agent: AI的下一个风口 具身机器人的发展趋势
2024-08-08 09:48
AI天才研究院的博客
AI Agent: AI的下一个风口 具身机器人的发展趋势 1. 背景介绍 1.1
人工智能
的发展历程 1.1.1 早期
人工智能
基于强化学习的AI智能制造柔性生产线实时优化
2025-03-14 12:48
AI天才研究院的博客
在当今制造业快速发展的背景下,智能制造成为了提升生产效率、降低成本、提高产品质量的关键方向。柔性生产线作为智能制造的重要组成部分,能够根据不同的生产需求快速调整生产流程和工艺参数,实现多品种、小批量的...
自动泊车强化学习训练及
小车
实地部署
2024-02-22 13:29
人工智能_SYBH的博客
Garrido-Jurado等人于2014年在一文中提出,在opencv的官方文档中可以找到ArUco的使用方法。ArUco 标记是由宽黑色边框和确定其标识符(id)的内部二进制矩阵组成的正方形标记,被广泛用来增加从二维世界映射到三维...
多智能体系统简介:MARL、协同机制与典型结构
2025-04-09 21:45
观熵的博客
从游戏 AI 到分布式机器人系统,从多 Agent RAG 到 LLM × 工具链联动,**多智能体系统(Multi-Agent Systems, MAS)**正在成为构建复杂 AI 应用的核心范式。 本篇我们将带你认识多智能体系统的基本类型、协作机制与...
基于深度强化学习算法的仿真到实践教程
2022-11-07 13:55
方小生–的博客
我的毕业论文主要是使用DQN,PPO,SAC仿真,然后放到车上跑(效果不太好)。 DQN和PPO是离散控制,SAC是连续控制。 代码说明: DQN是依照turtlebot3官方代码修改的pytorch版本,因为tensorflow配置环境有点难(用过...
深度强化学习在机器人自主学习中的突破
2024-11-22 05:46
AI天才研究院的博客
它的起源可以追溯到20世纪50年代,当时
人工智能
(Artificial Intelligence,简称AI)的先驱们开始探索如何通过机器自主学习来解决问题。早期的研究主要集中在基于规则的系统和简单的强化学习算法上,如Q-learning和...
强化学习与自适应控制原理与代码实战案例讲解
2024-12-02 11:12
AI大模型应用实战的博客
强化学习与自适应控制原理与代码实战案例讲解 关键词:强化学习, 自适应控制, 马尔可夫决策过程, Q-learning, SARSA, DQN, PPO, A3C, 代理(Agent), 应用案例, 代码实战 1. 背景介绍
机器人强化学习入门学习笔记(二)
2025-05-05 19:30
xiaomu_347的博客
简单易实现(比 TRPO 简洁)稳定性强可用于高维动作空间(如机械臂、二足机器人)官方 ...鲁棒性强比 DDPG 更稳定可靠动作输出确定性高,适合精准控制任务样本效率较好(off-policy)适用于机械臂、
小车
控制等任务。
中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero
2018-01-31 00:00
人工智能学家的博客
来源:德先生概要:2016年初,AlphaGo战胜李世石成为
人工智能
的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, ...
从零到工业落地!深度学习驱动扫地机器人路径规划全攻略(附源代码+ROS仿真+硬件部署)
2025-05-26 18:34
AI_DL_CODE的博客
通过构建多模态感知融合网络与改进型近端策略优化(PPO)决策模型,设计自适应奖励函数动态调整机制,并基于ROS与Gazebo搭建全链路仿真测试
平
台。详细展示硬件选型、算法代码实现、模型训练优化及实际部署流程,提供...
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
系统已结题
12月13日
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
12月5日