一文看懂计算机神经网络与梯度下降

最新推荐文章于 2025-04-22 22:59:23 发布

Cy_coding

最新推荐文章于 2025-04-22 22:59:23 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习 tensorflow 深度学习文章标签：神经网络 python 机器学习算法人工智能

本文链接：https://blog.csdn.net/Cy_coding/article/details/109060897

本文深入浅出地介绍了计算机神经网络的基本结构，特别是神经元的工作原理。接着，详细解释了梯度下降算法，它是优化神经网络权重的关键。文章还探讨了反向传播算法在计算损失函数梯度中的应用。最后，通过Tensorflow的GradientTape类展示了如何在实践中高效地计算梯度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 计算机神经网络与神经元

要理解神经网络中的梯度下降算法，首先我们必须清楚神经元的定义。如下图所示，每一个神经元可以由关系式 $f(\sum_{i=1}^nw_ix_i + b)$ 来描述，其中 $X = [x_1,x_2,...,x_n]$ 就是N维的输入信号， $W =[w_1,w_2,...,w_n]$ 是与输入向量一一对应的n维权重， $b$ bias 偏斜， $y$ 对应该神经元的输出， $f$ 函数称为激励函数，例如sigmoid函数，softmax函数等等。

那么一个神经网络是如何进行学习的呢？以一个神经元为例，在一组输入信号 $X$ 经过该神经元后，我们得到了一个输出信号称之为 $y_{etoile}$ ，而训练集中给出的实际输出例如为 $y$ ，那么显而易见地，想要提高正确率，即正确地学习对于一组输入应该获得的输出 $y$ ，一个神经元所做的计算，就是一个最优化(最小化)问题，通过改变权重 $W$ 来最小化损失(误差) $l(y,y_{etoile})$ 。当然，这个误差的定义可以根据问题的不同有所区别，例如简单的向量L1，L2距离，MSE均方误差。对于整个训练集而言，当然不止包含了一组输入输出。因此整体而言，误差Loss Function $\frac{1} {N}\sum_{t=1}^{K}l(y_t,y_{t_{etoile}})$ 是所有K组训练数据误差的总和的平均数。

我们已经知道了，Loss Function损失函数与神经元的权重息息相关，神经元要做的计算，就是找到能最小化该损失函数的权重 $W$ 。优化的算法纷繁多样，使用的较为广泛的就是梯度下降 $descentgradient\space\space descent$ 及其衍生算法SGD随机梯度下降，BGD批量梯度下降。