- 博客(1)
- 收藏
- 关注
原创 PPO连续控制中策略网络输出NaN的问题
而在输出标准差时往往使用了exp或者softmax进行激活以保证其恒为正值,这两个激活函数的梯度相对于relu都是相当大的,导致共享层关于标准差过拟合,输出的均值正确性就会受到影响,累计下来就会输出NaN。二是将不通过神经网络输出标准差对数,而是直接将其注册为神经网络的参数,这样在反向传播更新时,神经网络参数更新只受均值影响,而标准差对数则根据损失函数进行直接更新,但是暂时测试发现该方法训练效果并不理想。一是隐藏层和均值也使用大梯度激活函数,如sigmoid,这样两者梯度差距不会太大;
2024-07-11 21:27:46
1168
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人