普通RNN(循环神经网络)的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题:
一、梯度消失(Vanishing Gradient)
梯度消失是指在反向传播过程中,梯度逐层传播时变得越来越小,最终趋于接近0,导致模型前层的参数难以更新。
-
原因:
- 在反向传播时,每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值(小于1),随着层数或时间步的增加,梯度将指数级缩小,最终接近于零。
-
影响:
- 模型无法捕获长期依赖的信息。
- 导致网络前面的层(离输出较远的层)几乎不被训练,模型性能不佳。
二、梯度爆炸(Exploding Gradient)
梯度爆炸与梯度消失相反,指的是梯度在反向传播时变得异常大,数值迅速增长甚至达到无穷大,导致网络参数更新剧烈,不稳定。
-
原因:</