jy913872016-CSDN博客

原创 PPO连续控制中策略网络输出NaN的问题

而在输出标准差时往往使用了exp或者softmax进行激活以保证其恒为正值，这两个激活函数的梯度相对于relu都是相当大的，导致共享层关于标准差过拟合，输出的均值正确性就会受到影响，累计下来就会输出NaN。二是将不通过神经网络输出标准差对数，而是直接将其注册为神经网络的参数，这样在反向传播更新时，神经网络参数更新只受均值影响，而标准差对数则根据损失函数进行直接更新，但是暂时测试发现该方法训练效果并不理想。一是隐藏层和均值也使用大梯度激活函数，如sigmoid，这样两者梯度差距不会太大；

2024-07-11 21:27:46 1168 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人