【漫话机器学习系列】277.梯度裁剪（Gradient Clipping）

最新推荐文章于 2025-05-29 16:13:01 发布

IT古董

最新推荐文章于 2025-05-29 16:13:01 发布

阅读量1k

点赞数 25

分类专栏：漫话机器学习系列专辑文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/148200201

版权

277 篇文章

订阅专栏

【深度学习】什么是梯度裁剪（Gradient Clipping）？一张图彻底搞懂！

在训练深度神经网络，尤其是 RNN、LSTM、Transformer 这类深层结构时，你是否遇到过以下情况：

这些问题，很多时候都是因为——梯度过大（梯度爆炸）。而应对这个问题的常见方案之一，就是本文要讲的主角：梯度裁剪（Gradient Clipping）。

我们先看一张图，一图胜千言：

图中文字解读如下：

在反向传播中，每一层的梯度是前面所有梯度的乘积。在深层网络中，如果这些乘积的值都 > 1，最终梯度将呈指数级增长，导致所谓的梯度爆炸（Gradient Explosion）。

表现形式：

梯度裁剪并不会改变梯度的方向，它只是在梯度的模（大小）超过某个阈值时，进行缩放。这就像是给模型装了一个“刹车”系统，一旦速度过快就减速。

设：

裁剪操作如下：

$\text{if } \|g\| > v, \quad g \leftarrow \frac{g}{\|g\|} \cdot v$

也就是说：将梯度的模限制在最大值 vv 内，方向保持不变。

在 PyTorch 中非常简单：

import torch

# 假设已经定义 optimizer 和 model
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()

在 TensorFlow（Keras）中也可以：

optimizer = tf.keras.optimizers.Adam(clipnorm=1.0)

名称	作用	是否改变方向
梯度裁剪	控制梯度最大值，避免爆炸	否
L2 正则化（权重衰减）	防止模型过拟合，限制权重大小	是

注意：梯度裁剪是为了“救训练”，不是为了“提高精度”！