自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 PPO连续控制中策略网络输出NaN的问题

而在输出标准差时往往使用了exp或者softmax进行激活以保证其恒为正值,这两个激活函数的梯度相对于relu都是相当大的,导致共享层关于标准差过拟合,输出的均值正确性就会受到影响,累计下来就会输出NaN。二是将不通过神经网络输出标准差对数,而是直接将其注册为神经网络的参数,这样在反向传播更新时,神经网络参数更新只受均值影响,而标准差对数则根据损失函数进行直接更新,但是暂时测试发现该方法训练效果并不理想。一是隐藏层和均值也使用大梯度激活函数,如sigmoid,这样两者梯度差距不会太大;

2024-07-11 21:27:46 1168 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除